位置:成果数据库 > 期刊 > 期刊详情页
一种二阶TD Error快速Q(λ)算法
  • ISSN号:1003-6059
  • 期刊名称:模式识别与人工智能
  • 时间:2013.3.3
  • 页码:282-292
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]苏州大学计算机科学与技术学院,苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
  • 相关基金:国家自然科学基金项目(No.61070223,61103045,61272005,61170020)、江苏省自然科学基金项目(No.BK2012616)、江苏省高校自然科学研究项目(No.09KJA520002,09KJB520012)资助
  • 相关项目:面向tableau模型的逻辑强化学习理论及方法研究
中文摘要:

Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TDError的角度出发,给出n阶TDError的概念,并将n阶TDError用于经典的Q(λ)学习算法,提出一种二阶TDError快速Q(λ)学习算法——s0E—FQ(λ)算法.该算法利用二阶TDError修正Q值函数,并通过资格迹将TDError传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1-γ^-1、ε-1。将SOE—FQ(λ)算法用于RandomWalk和MountainCar问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.

英文摘要:

Q(λ) algorithm is a classic model-free-based off policy reinforcement learning with multiple steps which combines the value iteration and stochastic approximation. Aiming at the low efficiency and slow convergence for traditional Q (λ) algorithm, the n-order TD Error is defined from the aspect of the TD Error which is used to the traditional Q (A) algorithm, and a fast Q (A) algorithm based on the second- order TD Error (SOE-FQ(λ) ) is presented. The algorithm adjusts the Q value with the second-order TD Error and broadcasts the TD Error to the whole state-action space, which speeds up the convergence of the algorithm. In addition, the convergence rate is analyzed, and the number of iteration mainly depends on1-γ^-1、ε-1 under the condition of one-step update. Finally, the SOE-FQ (λ) algorithm is used to the random walk and mountain car, and the experimental results show that the algorithm has the faster convergence rate and better convergence performance.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169