东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于两层模糊划分的时间差分算法

ISSN号：1000-436X
期刊名称：《通信学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012
相关基金：国家自然科学基金资助项目（61070223,61103045,61070122,61272005）;江苏省自然科学基金资助项目（BKl2012616）;江苏省高校自然科学研究基金资助项目（09KJA520002,09KJB520012）;吉林大学符号计算与知识工程教育部重点实验室基金资助项目（93K172012K04）

作者：穆翔[1], 刘全[1,2], 傅启明[1], 孙洪坤[1], 周鑫[1]

关键词：强化学习, 在策略, 梯度下降, 两层模糊划分, 连续行为策略, reinforcement learning, on-policy, gradient descent, double layer fuzzy partitioning, continuous action policy

中文摘要：

针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题，提出了一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD，并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间，第二层模糊划分作用于动作空间，并结合两层模糊划分计算出Q值函数。根据所得的Q值函数，使用梯度下降方法更新模糊规则中的后件参数。将DFP-OPTD应用于经典强化学习问题中，实验结果表明，该算法有较好的收敛性能，且可以求解连续行为策略。

英文摘要：

When dealing with the continuous space problems, the traditional Qiteration algorithms based on lookuptable or function approximation converge slowly and are difficult to get a continuous policy. To overcome the above weak nesses, an onpolicy TD algorithm named DFPOPTD was proposed based on doublelayer fuzzy partitioning and its convergence was proved. The first layer of fuzzy partitioning was applied for state space, the second layer of fuzzy parti tioning was applied for action space, and Qvalue functions were computed by the combination of the two layer fuzzy partitioning. Based on the Qvalue function, the consequent parameters of fuzzy rules were updated by gradient descent method. Applying DFPOPTD on two classical reinforcement leaming problems, experimental results show that the algo rithm not only can be used to get a continuous action policy, but also has a better convergence performance.

同期刊论文项目

面向tableau模型的逻辑强化学习理论及方法研究

期刊论文 41 专利 2

基于逻辑强化学习的Deep Web模式匹配研究

期刊论文 27 会议论文 3 专利 1

多目标约束下的回归测试用例优化策略研究

期刊论文 32 会议论文 5

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

同项目期刊论文

Research of QoS Routing Algorithm in Ad Hoc Networks based on Reinforcement Learning

基于形式概念分析的博客社区发现

基于改进相似度传播算法的本体匹配

一种局部的重叠社区发现方法

一种基于粗糙集的社区结构发现算法

基于布尔矩阵的Deep Web复杂模式匹配

一种最大集合期望损失的多目标Sarsa(λ)算法

A novel collaborative filtering algorithm based on bipartite network projection

Type-2 fuzzy logic based deadlock detection

A Sarsa(λ)-Based Control Model for Real-Time Traffic Light Coordination

一种改进的SVM决策树Web文本分类算法

一种基于启发式奖赏函数的分层强化学习方法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

A Reward optimization method Based on Action Sub-Rewards in Hierarchical Reinforcement Learning

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

连续空间的递归最小二乘行动者—评论家算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

局部时空域模型的核密度估计目标检测方法

A Scalable Parallel Reinforcement Learning Method Based on Divide-and-Conquer Strategy

一种最大集合期望损失的多目标Sarsa(λ)算法

遗传反馈的多特征图像检索

基于角点特征的几何同步数字水印算法

分布式数据库中基于局部CON模型的记录匹配方法

一种二阶TD Error快速Q(λ)算法

A sarsa algorithm based on double-layer fuzzy reasoning

Research of qos rounting algorithm in Ad Hoc networks based on reinforcement learning

基于多Agent并行采样和学习经验复用的E~3算法

A Parallel Scheduling Algorithm for Reinforcement Learning in Large State Space

一种基于资格迹的并行强化学习算法

一种基于智能调度的可扩展并行强化学习方法

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

一种动态挥发率和启发式修正的蚁群优化算法

一种基于启发式奖赏函数的分层强化学习方法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

基于tableau结点封闭值的非一致性数据库开放分支修复方法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

一种基于负补偿自由能量方程的聚类算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于时间窗的自适应核密度估计运动检测方法

连续空间的递归最小二乘行动者—评论家算法

非清晰区域抑制下的显著对象检测方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于相变和似然性的多相图像分割方法

一种基于线性函数逼近的离策略Q（λ）算法

A parallel scheduling algorithm for reinforcement learning in large state space

Image categorization using a semantic hierarchy model with sparse set of salient regions

A Sarsa(<i>λ</i>) Algorithm Based on Double-Layer Fuzzy Reasoning

一种批量最小二乘策略迭代方法

基于拓扑序列更新的值迭代算法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种基于线性函数逼近的离策略Q（λ）算法

一种基于优先级的迭代划分测试方法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

A parallel scheduling algorithm for reinforcement learning in large state space

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

期刊信息

《通信学报》
中国科技核心期刊

主管单位:中国科学技术协会
主办单位:中国通信学会
主编：杨义先
地址：北京市丰台区成寿寺4路11号邮电出版大厦8层
邮编：100078
邮箱：
电话：010-81055478 81055481

国际标准刊号：ISSN：1000-436X
国内统一刊号：ISSN：11-2102/TN
邮发代号:2-676

获奖情况:
信息产业部通信科技期刊优秀期刊二等奖

国内外数据库收录:
荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:25019