东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种基于高斯过程的行动者评论家算法

ISSN号：1001-3695
期刊名称：《计算机应用研究》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程] TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
相关基金：国家自然科学基金资助项目（61103045;61272005;61272244;61303108;61373094）; 江苏省自然科学基金资助项目（BK2012616）; 江苏省高校自然科学研究资助项目（13KJB520020）; 吉林大学符号计算与知识工程教育部重点实验室资助项目（93K172014K04）

作者：陈仕超[1], 凌兴宏[1], 刘全[1,2], 伏玉琛[1], 陈桂兴[1]

关键词：强化学习, 行动者评论家, 高斯过程, 贝叶斯推理, 连续空间, reinforcement learning, actor-critic, Gaussian process, Bayesian inference, continuous space

中文摘要：

强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家（actor-critic,AC）算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。

英文摘要：

The problem of how to balance the exploration and exploitation in the large or continuous state space is a hot topic in the field of reinforcement learning. With respect to this problem,this paper presented a novel actor-critic algorithm which combined with function approximation method and Gaussian process method. In the terms of actor,the algorithm used the temporal difference error to construct a mean square error function with respect to the policy parameters. In the terms of critic,the algorithm used Gaussian process to model the linear state-value function,and in conjunction with generative model,obtained the posteriori distribution of the parameter vector of the state-value function by Bayesian inference. The experimental results on the balance pole experiment shows that the algorithm has faster convergence rate and achieves the balance between exploration and exploitation in the large or continuous state space effectively. The algorithm has good convergence performance.

同期刊论文项目

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

期刊论文 9

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

多目标约束下的回归测试用例优化策略研究

期刊论文 32 会议论文 5

基于支持向量机的增量式强化学习技术及其应用研究

期刊论文 11

基于复杂自适应系统的微网接入控制理论与算法研究

期刊论文 13

同项目期刊论文

A Sarsa(<i>λ</i>) Algorithm Based on Double-Layer Fuzzy Reasoning

基于拓扑序列更新的值迭代算法

一种二阶TD Error快速Q(λ)算法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

一种基于独立任务的POMDP问题的解决方法

A parallel scheduling algorithm for reinforcement learning in large state space

一种基于独立任务的POMDP问题的解决方法

增量式双自然策略梯度的行动者评论家算法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

一种基于独立任务的POMDP问题的解决方法

增量式双自然策略梯度的行动者评论家算法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

一种基于示例轨迹的抽象动作树构造方法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

增量式双自然策略梯度的行动者评论家算法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于点特异度和自适应分类策略的眼底图像分割方法

基于局部自适应点特异度阈值的眼底图像血管分割方法研究

三维网格空间上的自组装模型

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

离散线性一致性算法噪声问题研究

线性均方一致性问题的偏差估计

融合迁移学习的TranCo—Training分类模型

一种基于独立任务的POMDP问题的解决方法

线性离散一致性系统均方偏差上界

一种用于连续动作空间的最小二乘行动者-评论家方法

基于可中断Option的在线分层强化学习方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种最大集合期望损失的多目标Sarsa(λ)算法

一种用于连续动作空间的最小二乘行动者-评论家方法

基于可中断Option的在线分层强化学习方法

连续空间中的随机技能发现算法

一种用于连续动作空间的最小二乘行动者-评论家方法

基于可中断Option的在线分层强化学习方法

连续空间中的随机技能发现算法

一种基于优先级的迭代划分测试方法

一种基于线性函数逼近的离策略Q（λ）算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种最大集合期望损失的多目标Sarsa(λ)算法

一种批量最小二乘策略迭代方法

高校数据库技术实验设计与在线实验系统整合研究

一种基于NAND闪存高效的页面替换算法

基于变步长迭代算法的微轴承参量特性研究

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

连续空间的递归最小二乘行动者—评论家算法

期刊信息

《计算机应用研究》
北大核心期刊（2011版）

主管单位:四川省科学技术厅
主办单位:四川省计算机研究院
主编：刘营
地址：成都市成科西路3号
邮编：610041
邮箱：arocmag@163.com
电话：028-85210177 85249567

国际标准刊号：ISSN：1001-3695
国内统一刊号：ISSN：51-1196/TP
邮发代号:62-68

获奖情况:
第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:60049