位置:成果数据库 > 期刊 > 期刊详情页
基于自适应归一化RBF网络的Q-V值函数协同逼近模型
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012, [3]江苏省软件新技术与产业化协同创新中心,南京210046
  • 相关基金:国家自然科学基金(61272005,61070223,61103045,61070122,61472262); 江苏省自然科学基金(BK2012616); 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助~~
中文摘要:

径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.

英文摘要:

The radial basis function(RBF)network approximation models can effectively solve the reinforcement learning problems with continuous state space.However,the online characteristic of reinforcement learning determines that the RBF network approximation models are facing the"catastrophic interference"problem,namely the input-output mapping learned in the past is easily collapsed by the learning of new training data.In order to solve the"catastrophic interference"problem of the RBF approximation models,we proposed a collaborative Q-V value function approximation model and a corresponding collaborative algorithm named QV(λ)based on the adaptive normalized RBF(ANRBF)network.The algorithm normalizes the feature vector generated by RBFs,and adjusts the number of the ANRBF network's hidden layer nodes,the center and width of each node online and adaptively,which can effectively improve the anti-interference capacity and flexibility of the approximation model.The collaborative approximation model usesthe Q and V value functions to shape the TD error collaboratively,which can obtain some prior knowledge of the environment model.So we can improve the convergence speed and the initial performance effectively.The convergence of QV(λ)algorithm was analyzed theoretically.Extensive experiments were conducted to show that QV(λ)algorithm has better performance than the other function approximation methods.

同期刊论文项目
期刊论文 27 会议论文 3 专利 1
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433