位置:成果数据库 > 期刊 > 期刊详情页
基于高斯回归的连续空间多智能体跟踪学习
  • ISSN号:0254-4156
  • 期刊名称:自动化学报
  • 时间:0
  • 页码:-
  • 分类:TP[自动化与计算机技术]
  • 作者机构:[1]中南大学信息科学与工程学院,长沙410083, [2]先进控制与智能自动化湖南省工程实验室,长沙410083
  • 相关基金:国家自然科学基金(61074058)资助~~
  • 相关项目:基于合作策略自学习的多机器人系统智能协作模型
中文摘要:

提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi.agentreinforcementlearning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi—agentsystems,MASl环境下基于模型的智能体跟踪式学习机制和算法(MASMBRL.CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程fMarkovdecisionprocess,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MASMBRL—CPT在连续空间Multi—cart—pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.

英文摘要:

mproving adaption, reMizing generalization in continuous space, and reducing dimensions are always viewed as the key issues for the implementation of multi-agent reinforcement learning (MARL) within continuous systems. To tackle them, the paper presents a learning mechanism and algorithm named model-based reinforcement learning with companion's policy tracking for multi-agent systems (MAS MBRL-CPT). Stemming from the viewpoint to make the best responses to companions, a new expected immediate reward is defined, which merges the observation on companion's policy into the payoff fed back from the environment, and whose value is estimated online by stochastic approximation. Then a Q value function with dimension reduced is developed to set up Markov decision process (MDP) for strategy learning in multi-agent environment. Based on the model of state transition using Gaussian regression, the Q value functions w.r.t. the state-action samples for generalization are solved by dynamic programming, which then serve as the basic samples to realize the generalization of value functions and learned strategies. In the simulation of multi-cart-pole in continuous space, even if the dynamics and companions' strategies are unknown in priori, MBRL-CPT entitles the learning agent to learn the tracking strategy to cooperate with its companions. The performance of MBRL-CPT shows its high efficiency and good generalization ability.

同期刊论文项目
期刊论文 16 会议论文 6 获奖 4 专利 3
同项目期刊论文
期刊信息
  • 《自动化学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院自动化研究所
  • 主编:王飞跃
  • 地址:北京东黄城根北街16号
  • 邮编:100717
  • 邮箱:aas@ia.ac.cn
  • 电话:010-64019820
  • 国际标准刊号:ISSN:0254-4156
  • 国内统一刊号:ISSN:11-2109/TP
  • 邮发代号:2-180
  • 获奖情况:
  • 1997年获全国优秀期刊奖,1985、1990、1996、2000年获中国科学院优秀期刊二等奖,2002年获国家期刊奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27550