东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种基于视觉注意力机制的深度循环Q网络模型

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]软件新技术与产业化协同创新中心,南京210000, [3]吉林大学符号计算与知识工程教育部重点实验室,长春130012
相关基金：本课题得到国家自然科学基金项目（61272005,61303108,61373094,61472262,61502323,61502329）、江苏省自然科学基金（BK2012616）、江苏省高校自然科学研究项目（13KJB520020,16KJB520041）、吉林大学符号计算与知识工程教育部重点实验室基金项目（93K172014K04）、苏州市应用基础研究计划工业部分（SYG201422,SYG201308）资助.

作者：刘全[1,2,3], 翟建伟[1], 钟珊[1], 章宗长[1,2], 周倩[1], 章鹏[1]

关键词：深度学习, 强化学习, 深度强化学习, 深度Q学习, 循环神经网络, 视觉注意力机制, 人工智能, deep learning , reinforcement learning, deep reinforcement learning, deep Q- learning recurrent neural network, visual attention mechanism, artificial intelligence

中文摘要：

由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点：一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性.

英文摘要：

Reinforcement Learning, as a subject of study for over more than fifty years, investigates how an autonomous agent can learn what to do to maximize a numerical reward signal from interaction with the world by balancing exploration of the environment with exploitation of knowledge gained via evaluative feedback, without relying on exemplary supervision of an omniscient teacher or complete models of the environment. Deep learning is a cutting-edge approach to machine learning that concerns with using multi-layer artificial neural networks to learn the complicated representations that are expressed in terms of simpler ones. Currently, Deep Reinforcement Learning formed by combining modern reinforcement learning with deep learning is becoming a new research hotspot in the Artificial Intelligence community, and has made substantial breakthroughs tn a variety ot tasks--such as robot control, text recognition and games--requiring both rich perception of high- dimensional raw inputs and policy ＇control. In particular, a state-of-the-art deep reinforcement learning model, termed Deep Q-Network, is able to perform human-level control using the same network architecture and hyper-parameters for handling problems approaching real-world complexity such as some Atari 2600 games. However, Deep Q-Network＇s performance falls far below human level in situations that exist delayed rewards and require planning under uncertainty within long-time horizon to optimize strategies. This implies that Deep Q-Network is not good at controlling agents in strategic deep reinforcement learning tasks. To alleviate the issue, this paper proposes a novel deep reinforcement learning model by improving Deep Q-Network with recurrent neural networks based on visual attention mechanism. Two key ideas are included in the new model：（1） it uses recurrent neural networks consisting of two-layer gated recurrent units in order to remember more historical information of multiple time steps. This can make an agent exploit delayed feedback in tim

同期刊论文项目

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

期刊论文 9

基于重要性采样的并行离策略强化学习方法研究

期刊论文 10

基于支持向量机的增量式强化学习技术及其应用研究

期刊论文 11

基于覆盖数的部分可观察不确定性规划理论及方法

期刊论文 5

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

基于模糊逻辑的大规模强化学习理论及方法

期刊论文 10

同项目期刊论文

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

连续空间的递归最小二乘行动者—评论家算法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

一种基于示例轨迹的抽象动作树构造方法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

一种基于优先级的迭代划分测试方法

增量式双自然策略梯度的行动者评论家算法

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

基于函数逼近的冗余值迭代算法

蓝牙室内定位自适应算法研究

大学生体质分析及其应用研究

基于经验回放Q-Learning的最优控制算法

连续空间中的一种动作加权行动者评论家算法

一种基于优先级的迭代划分测试方法

增量式双自然策略梯度的行动者评论家算法

基于多注意力卷积神经网络的特定目标情感分析

连续空间中的一种动作加权行动者评论家算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

支持合并的自适应tile coding算法

连续空间中的一种动作加权行动者评论家算法

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433