位置:成果数据库 > 期刊 > 期刊详情页
一种最大集合期望损失的多目标Sarsa(λ)算法
  • ISSN号:0372-2112
  • 期刊名称:电子学报
  • 时间:2013.8.8
  • 页码:1469-1473
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]苏州大学计算机与科学学院,江苏苏州215000, [2]符号计算与知识工程教育部重点实验室(吉林大学),吉林长春130012
  • 相关基金:国家自然科学基金(No.61070223,No.61103045,No.61272005,No.61170020); 江苏省自然科学基金(No.BK2012616); 江苏省高校自然科学研究项目(No.09KJA520002,No.09KJB520012); 吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172012K04)
  • 相关项目:面向tableau模型的逻辑强化学习理论及方法研究
中文摘要:

针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.

英文摘要:

For solving the multiple-goal problem in RoboCup,a novel multiple-goal Reinforcement Learning algorithm,named LRGM-Sarsa(λ),is proposed.The algorithm estimates the lost reward of the greatest mass of every sub goal and trades off the long term reward of the sub goals to get a composite policy.In the single learning module,B error function,which is based on MSBR error function is proposed.B error function has guaranteed the convergence of the value prediction with the non-linear function approximation.The probability funciton of selecting actions and the parameter α are also improved with respect to B error function.This algorithm is applied to the training of shooting in Robocup 2D.The experimental results show that the proposed algorithm is more stable and converges faster.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电子学报》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:郝跃
  • 地址:北京165信箱
  • 邮编:100036
  • 邮箱:new@ejournal.org.cn
  • 电话:010-68279116 68285082
  • 国际标准刊号:ISSN:0372-2112
  • 国内统一刊号:ISSN:11-2087/TN
  • 邮发代号:2-891
  • 获奖情况:
  • 2000年获国家期刊奖,2000年获国家自然科学基金志项基金支持,中国期刊方阵“双高”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:57611