位置:成果数据库 > 期刊 > 期刊详情页
一种新的多智能体Q学习算法
  • ISSN号:0254-4156
  • 期刊名称:自动化学报
  • 时间:0
  • 页码:367-372
  • 语言:中文
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]中南大学信息科学与工程学院,长沙410083, [2]贵州省高速公路开发总公司,贵阳550003
  • 相关基金:湖南省自然科学基金项目(06JJ50144)和国家杰出青年科学基金项目(60425310)资助
  • 相关项目:工程系统与控制
中文摘要:

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力.

英文摘要:

Due to the presence of other agents, the environment of multi-agent systems (MAS) cannot be simply treated as Markov decision processes (MDPs). The current reinforcement learning algorithms which are based on MDPs must be reformed before it can be applicable to MAS. Based on an agent's independent learning ability this paper proposes a novel Q-learning algorithm for MAS -an agent learning other agents' action policies through observing the joint action. The policies of other agents are expressed as action probability distribution matrixes. A concise and yet useful updating method for the matrixes is proposed. The full joint probability of distribution matrixes guarantees the learning agent to choose his/her optimal action. The convergence and performance of the proposed algorithm are analyzed theoretically. When applied to RoboCup, our algorithm showed high learning efficiency and good generalization ability. Finally, we briefly point out some directions of multi-agent reinforcement learning.

同期刊论文项目
期刊论文 174 会议论文 51 获奖 10 专利 8 著作 5
同项目期刊论文
期刊信息
  • 《自动化学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院自动化研究所
  • 主编:王飞跃
  • 地址:北京东黄城根北街16号
  • 邮编:100717
  • 邮箱:aas@ia.ac.cn
  • 电话:010-64019820
  • 国际标准刊号:ISSN:0254-4156
  • 国内统一刊号:ISSN:11-2109/TP
  • 邮发代号:2-180
  • 获奖情况:
  • 1997年获全国优秀期刊奖,1985、1990、1996、2000年获中国科学院优秀期刊二等奖,2002年获国家期刊奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27550