东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种基于线性函数逼近的离策略Q（λ）算法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
相关基金：本课题得到国家自然科学基金（60873116,61070223,61103045）、江苏省自然科学基金（BK2008161,BK2009116）、江苏省高校自然科学研究项目（09KJA520002,09KJB520012）、吉林大学符号计算与知识工程教育部重点实验室资助项目（93K172012K04）资助.

作者：傅启明[1], 刘全[1,2], 王辉[1], 肖飞[1], 于俊[1], 李娇[1]

关键词：强化学习, 函数逼近, 离策略, Q(A)算法, 机器学习中图法, reinforcement learning, function approximation, gradient descent, Q（λ） algorithm, machine learning

中文摘要：

将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点．针对传统的基于查询表及函数逼近的Q（A）学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题，提出一种基于线性函数逼近的离策略Q（A）算法．该算法通过引入重要性关联因子，在迭代次数逐步增长的过程中，使得在策略与离策略相统一，确保算法的收敛性．同时在保证在策略与离策略的样本数据一致性的前提下，对算法的收敛性给予理论证明．将文中提出的算法用于Baird反例、Mountain—Car及RandomWalk仿真平台，实验结果表明，该算法与传统的基于函数逼近的离策略算法相比，具有较好的收敛性；与传统的基于查询表的算法相比，具有更快的收敛速度，且对于状态空间的增长具有较强的鲁棒性．

英文摘要：

Reinforcement Learning using Function Approximation is a new research hotpot in Machine Learning field in recent years. In allusion to the problem of non-convergence or slow convergence for the traditional Q（2,） algorithm based on Lookup-Table or Function Approximation in large state space, the paper proposed a novel off Policy QO,） algorithm based on Linear Function Approximation, which introduces associated importance factor, uses associated impor- tance factor to unify the on-policy and off-policy on sample data distribution in iteration process, and assures the convergence. Under the premise of sample data consistency, the paper gave the proof of the convergence for the algorithm. Using the proposed algorithm on Baird Counter- Example, Mountain-Car and Random Walk, the results show that, compared with the traditional off-policy algorithm based on Function Approximation, the algorithm can converge well, and compared with the traditional TD（λ） based on Lookup-Table, the algorithm has better convergence performance, faster convergence speed, and better robustness for state space growth.

同期刊论文项目

面向tableau模型的逻辑强化学习理论及方法研究

期刊论文 41 专利 2

多目标约束下的回归测试用例优化策略研究

期刊论文 32 会议论文 5

基于tableau的非经典逻辑经典化的自动定理证明研究

期刊论文 39 会议论文 13

同项目期刊论文

局部时空域模型的核密度估计目标检测方法

A Scalable Parallel Reinforcement Learning Method Based on Divide-and-Conquer Strategy

一种最大集合期望损失的多目标Sarsa(λ)算法

遗传反馈的多特征图像检索

基于角点特征的几何同步数字水印算法

分布式数据库中基于局部CON模型的记录匹配方法

一种二阶TD Error快速Q(λ)算法

A sarsa algorithm based on double-layer fuzzy reasoning

Research of qos rounting algorithm in Ad Hoc networks based on reinforcement learning

基于多Agent并行采样和学习经验复用的E~3算法

A Parallel Scheduling Algorithm for Reinforcement Learning in Large State Space

一种基于资格迹的并行强化学习算法

一种基于智能调度的可扩展并行强化学习方法

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

一种动态挥发率和启发式修正的蚁群优化算法

一种基于启发式奖赏函数的分层强化学习方法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

基于tableau结点封闭值的非一致性数据库开放分支修复方法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

一种基于负补偿自由能量方程的聚类算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于时间窗的自适应核密度估计运动检测方法

连续空间的递归最小二乘行动者—评论家算法

非清晰区域抑制下的显著对象检测方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于相变和似然性的多相图像分割方法

A parallel scheduling algorithm for reinforcement learning in large state space

Image categorization using a semantic hierarchy model with sparse set of salient regions

A Sarsa(<i>λ</i>) Algorithm Based on Double-Layer Fuzzy Reasoning

一种批量最小二乘策略迭代方法

基于拓扑序列更新的值迭代算法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种基于优先级的迭代划分测试方法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

A parallel scheduling algorithm for reinforcement learning in large state space

A Bit-decomposition Adaptive Watermarking Algorithm Based on the Multi-Polar Mask

Global and local convergence of a class of penalty-free-type methods for nonlinear programming

关系强化学习方法的初步研究

一种局部的重叠社区发现方法

一种基于粗糙集的社区结构发现算法

基于布尔矩阵的Deep Web复杂模式匹配

遗传反馈的多特征图像检索

基于角点特征的几何同步数字水印算法

一种动态挥发率和启发式修正的蚁群优化算法

基于强化学习的多策略选择遗传算法

最小状态变元平均奖赏的强化学习方法

基于角点特征的集合同步数字水印算法

一种基于启发式奖赏函数的分层强化学习方法

Relevance feedback techniques and genetic algorithm for image retrieval based on multiple features.

Double elite co-evolutionsry genetic algorithm

利用tableau方法修正Deep Web中不相容知识

Convergence of Affine-scaling Interior-point Methods with Line Search for Box Constrained Optimizati

一种大规模离散空间中的高斯强化学习方法

双精英协同进化遗传算法

基于时间窗的自适应核密度估计运动检测方法

非清晰区域抑制下的显著对象检测方法

基于相变和似然性的多相图像分割方法

一种多分类器Deep Web数据源的自动分类与判别方法

融合目标特征和空间信息的粒子滤波跟踪

基于总体变分修复模型的图像编码

基于分段多高斯和辐射模板的人脸检测

一阶逻辑公式自动推演前的预处理

一种用于二维流体表面绘制算法的研究

基于Bayes序贯估计的无线传感器网络数据融合算法

一种基于图的颜色纹理区域分割方法

快速3D-MSPIHT视频编码算法

聚类差分图像核密度估计前景目标检测

传感器网络病毒感染传播局域控制研究

不规则扁平粒状物表面平整度识别与分选方法的研究

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433