位置:成果数据库 > 期刊 > 期刊详情页
一种基于线性函数逼近的离策略Q(λ)算法
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
  • 相关基金:本课题得到国家自然科学基金(60873116,61070223,61103045)、江苏省自然科学基金(BK2008161,BK2009116)、江苏省高校自然科学研究项目(09KJA520002,09KJB520012)、吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助.
中文摘要:

将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(A)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(A)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain—Car及RandomWalk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.

英文摘要:

Reinforcement Learning using Function Approximation is a new research hotpot in Machine Learning field in recent years. In allusion to the problem of non-convergence or slow convergence for the traditional Q(2,) algorithm based on Lookup-Table or Function Approximation in large state space, the paper proposed a novel off Policy QO,) algorithm based on Linear Function Approximation, which introduces associated importance factor, uses associated impor- tance factor to unify the on-policy and off-policy on sample data distribution in iteration process, and assures the convergence. Under the premise of sample data consistency, the paper gave the proof of the convergence for the algorithm. Using the proposed algorithm on Baird Counter- Example, Mountain-Car and Random Walk, the results show that, compared with the traditional off-policy algorithm based on Function Approximation, the algorithm can converge well, and compared with the traditional TD(λ) based on Lookup-Table, the algorithm has better convergence performance, faster convergence speed, and better robustness for state space growth.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433