东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种二阶TD Error快速Q(λ)算法

ISSN号：1003-6059
期刊名称：模式识别与人工智能
时间：2013.3.3
页码：282-292
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
相关基金：国家自然科学基金项目（No.61070223,61103045,61272005,61170020）、江苏省自然科学基金项目（No.BK2012616）、江苏省高校自然科学研究项目（No.09KJA520002,09KJB520012）资助
相关项目：面向tableau模型的逻辑强化学习理论及方法研究

作者：傅启明|刘全|孙洪坤|高龙|李瑾|王辉|

关键词：强化学习, 马尔科夫决策过程, 二阶TD, ERROR, 资格迹, Q(λ)算法, Reinforcement Learning, Markov Decision Process, Second Order TD Error, EligibilityTrace, Q （ A ） Algorithm

中文摘要：

Q（λ）学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法．针对经典的Q（λ）学习算法执行效率低、收敛速度慢的问题，从TDError的角度出发，给出n阶TDError的概念，并将n阶TDError用于经典的Q（λ）学习算法，提出一种二阶TDError快速Q（λ）学习算法——s0E—FQ（λ）算法．该算法利用二阶TDError修正Q值函数，并通过资格迹将TDError传播至整个状态动作空间，加快算法的收敛速度．在此基础之上，分析算法的收敛性及收敛效率，在仅考虑一步更新的情况下，算法所要执行的迭代次数T主要指数依赖于1-γ^-1、ε-1。将SOE—FQ（λ）算法用于RandomWalk和MountainCar问题，实验结果表明，算法具有较快的收敛速度和较好的收敛精度．

英文摘要：

Q（λ） algorithm is a classic model-free-based off policy reinforcement learning with multiple steps which combines the value iteration and stochastic approximation. Aiming at the low efficiency and slow convergence for traditional Q （λ） algorithm, the n-order TD Error is defined from the aspect of the TD Error which is used to the traditional Q （A） algorithm, and a fast Q （A） algorithm based on the second- order TD Error （SOE-FQ（λ）） is presented. The algorithm adjusts the Q value with the second-order TD Error and broadcasts the TD Error to the whole state-action space, which speeds up the convergence of the algorithm. In addition, the convergence rate is analyzed, and the number of iteration mainly depends on1-γ^-1、ε-1 under the condition of one-step update. Finally, the SOE-FQ （λ） algorithm is used to the random walk and mountain car, and the experimental results show that the algorithm has the faster convergence rate and better convergence performance.

同期刊论文项目

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

多目标约束下的回归测试用例优化策略研究

期刊论文 32 会议论文 5

面向tableau模型的逻辑强化学习理论及方法研究

期刊论文 41 专利 2

面向Deep Web的大规模知识库自动构建方法研究

期刊论文 38 会议论文 34

同项目期刊论文

局部时空域模型的核密度估计目标检测方法

A Scalable Parallel Reinforcement Learning Method Based on Divide-and-Conquer Strategy

一种最大集合期望损失的多目标Sarsa(λ)算法

遗传反馈的多特征图像检索

基于角点特征的几何同步数字水印算法

分布式数据库中基于局部CON模型的记录匹配方法

A sarsa algorithm based on double-layer fuzzy reasoning

Research of qos rounting algorithm in Ad Hoc networks based on reinforcement learning

基于多Agent并行采样和学习经验复用的E~3算法

A Parallel Scheduling Algorithm for Reinforcement Learning in Large State Space

一种基于资格迹的并行强化学习算法

一种基于智能调度的可扩展并行强化学习方法

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

一种动态挥发率和启发式修正的蚁群优化算法

一种基于启发式奖赏函数的分层强化学习方法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

基于tableau结点封闭值的非一致性数据库开放分支修复方法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

一种基于负补偿自由能量方程的聚类算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于时间窗的自适应核密度估计运动检测方法

连续空间的递归最小二乘行动者—评论家算法

非清晰区域抑制下的显著对象检测方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于相变和似然性的多相图像分割方法

一种基于线性函数逼近的离策略Q（λ）算法

A parallel scheduling algorithm for reinforcement learning in large state space

Image categorization using a semantic hierarchy model with sparse set of salient regions

Active Transfer Learning of Matching Query Results acrossMultiple-sources

Study of Active Learning-based Trademark Number Recognition Method

Constructing topic models of Internet of Things for information processing.

An active learning approach with uncertainty, representativeness, and diversity.

Immune Centroids Oversampling Method for Binary Classification

基于在线消息传递的主题追踪方法

A Comparative Study of SIFT and Its Variants

局部时空域模型的核密度估计目标检测方法

最小差异采样的主动学习图像分类方法

基于局部密度构造相似矩阵的谱聚类算法

基于词汇树层次语义模型的图像检索算法

一种最大集合期望损失的多目标Sarsa(λ)算法

基于循环策略和动态知识的deep Web数据获取方法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

基于相变和似然性的多相图像分割方法

基于负载波动预测的虚拟机自主迁移启发式方法

基于数据源依赖性的Deep Web数据融合方法

A parallel scheduling algorithm for reinforcement learning in large state space

Image categorization using a semantic hierarchy model with sparse set of salient regions

A Sarsa(<i>λ</i>) Algorithm Based on Double-Layer Fuzzy Reasoning

一种批量最小二乘策略迭代方法

基于拓扑序列更新的值迭代算法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种基于线性函数逼近的离策略Q（λ）算法

一种基于优先级的迭代划分测试方法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

A parallel scheduling algorithm for reinforcement learning in large state space

一种最大集合期望损失的多目标Sarsa(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

期刊信息

《模式识别与人工智能》
中国科技核心期刊

主管单位:中国科学技术协会中国自动化学会
主办单位:国家智能计算机研究开发中心中国科学院合肥智能机械研究所
主编：郑南宁
地址：安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
邮编：230031
邮箱：bjb@iim.cas.cn
电话：0551-5591176

国际标准刊号：ISSN：1003-6059
国内统一刊号：ISSN：34-1089/TP
邮发代号:26-69

获奖情况:

国内外数据库收录:

被引量:10169