位置:成果数据库 > 期刊 > 期刊详情页
基于行动分值的强化学习与奖赏优化
  • ISSN号:0253-374X
  • 期刊名称:《同济大学学报:自然科学版》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]同济大学控制科学与工程系,上海200092
  • 相关基金:国家自然科学基金资助项目(60643001);教育部新世纪优秀人才计划和上海市曙光计划项目(04SG22)
中文摘要:

针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度.

英文摘要:

A new reinforcement learning algorithm with "action values" as a basis for an agent to choose actions is put forward to improve the design of reward signals. For action values are more flexible than traditional state values, it is easier to design more optimized reward functions and improve learning performance. Based on action values, an exponential function and a logarithmic function are used to compute action rewards and discount rate dynamically, which accelerates agents to choose optimized actions. It shows that through the computer simulation of a maze problem the new algorithm reduces action times before convergence and the convergence speed is thus enhanced.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《同济大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:同济大学
  • 主编:李杰
  • 地址:上海四平路1239号
  • 邮编:200092
  • 邮箱:zrxb@tongji.edu.cn
  • 电话:021-65982344
  • 国际标准刊号:ISSN:0253-374X
  • 国内统一刊号:ISSN:31-1267/N
  • 邮发代号:4-260
  • 获奖情况:
  • 国家双百期刊,第二届国家期刊奖重点科技期刊奖,1999年全国优秀高校自然科学学报一等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:34557