东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

元博弈平衡和多Agent强化学习的MetaQ算法

ISSN号：1000-1239
期刊名称：《计算机研究与发展》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]南京大学软件新技术国家重点实验室,南京,210093 南京大学软件新技术国家重点实验室,南京,210093
相关基金：国家自然科学基金项目(60475026)

作者：王皓[1], 高阳[1]

关键词：强化学习, 多AGENT系统, 元博弈, MetaQ

中文摘要：

多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.

同期刊论文项目

非马尔可夫决策过程中强化学习技术研究与应用

期刊论文 23 会议论文 25 著作 2

同项目期刊论文

Three Perspectives on Multi-ag

平均奖赏强化学习算法研究

RLGA:一种基于强化学习机制的遗

面向Option的k-聚类Subgoal发现

基于SMDP环境的自主生成options

一种劝说式多Agent多议题协商方

贝叶斯学习与强化学习结合技术的

A Two-layered Multi-agent Rein

基于结果修剪法解决文本分类中属

一种基于性能势的无折扣强化学习

Online community thread simila

一种劝说式多Agent多议题协商方法

基于CMAC网络强化学习的电梯群控调度

提升企业绩效的新途径：选择创新型供应商

RLGA：一种基于强化学习机制的遗传算法

面向Option的k-聚类Subgoal发现算法

CALO研究进展分析

一种基于性能势的无折扣强化学习算法

期刊信息

《计算机研究与发展》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院计算技术研究所
主编：徐志伟
地址：北京市科学院南路6号中科院计算所
邮编：100190
邮箱：crad@ict.ac.cn
电话：010-62620696 62600350

国际标准刊号：ISSN：1000-1239
国内统一刊号：ISSN：11-1777/TP
邮发代号:2-654

获奖情况:
2001-2007百种中国杰出学术期刊，2008中国精品科...,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:40349