东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于可中断Option的在线分层强化学习方法

ISSN号：1000-436X
期刊名称：《通信学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012
相关基金：国家自然科学基金资助项目（No.61303108;No.61373094;No.61272005;No.61472262）; 江苏省高校自然科学研究基金资助项目（No.13KJB520020）; 吉林大学符号计算与知识工程教育部重点实验室基金资助项目（No.93K172014K04）; 苏州市应用基础研究计划基金资助项目（No.SYG201422）; 苏州大学高校省级重点实验室基金资助项目（No.KJS1524）; 中国国家留学基金资助项目（No.201606920013）.

作者：朱斐[1,2], 许志鹏[1], 刘全[1,2], 伏玉琛[1], 王辉[1]

关键词：大数据, 强化学习, 分层强化学习, OPTION, 在线学习, big data, reinforcement learning, hierarchical reinforcement learning, Option, online learning

中文摘要：

针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法（MQIU）,同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法（IMQ）,能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。

英文摘要：

Aiming at dealing with volume of big data, an on-line updating algorithm, named by Macro-Q with in-place updating（MQIU）, which was based on Macro-Q algorithm and takes advantage of in-place updating approach, was proposed. The MQIU algorithm updates both the value function of abstract action and the value function of primitive action, and hence speeds up the convergence rate. By introducing the interruption mechanism, a model-free interrupting Macro-Q Option learning algorithm（IMQ）, which was based on hierarchical reinforcement learning, was also introduced to order to handle the variability which was hard to process by the conventional Markov decision process model and abstract action so that IMQ was able to learn and improve control strategies in a dynamic environment. Simulations verify the MQIU algorithm speeds up the convergence rate so that it is able to do with the larger scale of data, and the IMQ algorithm solves the task faster with a stable learning performance.

同期刊论文项目

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

期刊论文 9

基于支持向量机的增量式强化学习技术及其应用研究

期刊论文 11

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

基于模糊逻辑的大规模强化学习理论及方法

期刊论文 10

同项目期刊论文

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

连续空间的递归最小二乘行动者—评论家算法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

一种基于示例轨迹的抽象动作树构造方法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

支持合并的自适应tile coding算法

连续空间中的一种动作加权行动者评论家算法

期刊信息

《通信学报》
中国科技核心期刊

主管单位:中国科学技术协会
主办单位:中国通信学会
主编：杨义先
地址：北京市丰台区成寿寺4路11号邮电出版大厦8层
邮编：100078
邮箱：
电话：010-81055478 81055481

国际标准刊号：ISSN：1000-436X
国内统一刊号：ISSN：11-2102/TN
邮发代号:2-676

获奖情况:
信息产业部通信科技期刊优秀期刊二等奖

国内外数据库收录:
荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:25019