东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于动作空间划分的MAXQ自动分层方法

ISSN号：1001-9081
期刊名称：《计算机应用》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：贵州大学计算机科学与技术学院,贵阳550025
相关基金：国家自然科学基金资助项目（61562009）;贵州大学引进人才科研项目（贵大人基合字（2012）028号）.

作者：王奇, 秦进

关键词：强化学习, 分层强化学习, 自动分层方法, 马尔可夫决策过程, 子任务, reinforcement learning, hierarchical reinforcement learning, automatic hierarchical approach, Markov Decision Process （MDP） , subtask

中文摘要：

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。

英文摘要：

Since a hierarchy of Markov Decision Process （MDP） need to be constructed manually in hierarchical reinforcement learning and some automatic hierarchical approachs based on state space produce unsatisfactory results in environment with not obvious subgoals, a new automatic hierarchical approach based on action space partition was proposed. Firstly, the set of actions was decomposed into some disjoint subsets through the state component of the action. Then, bottleneck actions were identified by analyzing the executable actions of the Agent in different states. Finally, based on the execution order of actions and bottleneck actions, the relationship of action subsets was determined and a hierarchy was constructed. Furthermore, the termination condition for sub-tasks in the MAXQ method was modified so that by using the hierarchical structure of the proposed algorithm the optimal strategy could be found through the MAXQ method. The experimental results show that the algorithm can automatically construct the hierarchical structure which was not affected by environmental change. Compared with the QLearning and Sarsa algorithms, the MAXQ method with the proposed hierarchy obtains the optimal strategy faster and gets higher returns. It verifies that the proposed algorithm can effectively construct the MAXQ hierarchy and make the optimal strategy more efficient.

同期刊论文项目

基于增强学习的动态优化问题模型及算法研究

期刊论文 1

　电接触表面动力学特性及其应用研究

期刊论文 37

同项目期刊论文

Effect on platelet aggregation activity： extracts from 31 Traditional Chinese Medicines with the property of activating blood and resolving stasis

贵州省颌针鱼目一鱼类新纪录——鱵鱼

中华倒刺鲃仔、稚鱼的耳石微结构与日轮形成特征

杂交水稻全优1479高产制种技术

数学真理困境的结构主义实在论求解

激光物理教与学中应注意的几个问题

作为数学基础的范畴论

关注图形在数列教学中的应用

面积法与极限思想的形成

大学物理实验研究型实验报告的设计与实践

碱性成纤维细胞生长因子对动脉粥样硬化大鼠脑基底动脉血管内皮功能与结构的影响

荷兰的科学技术哲学研究状况及特征

利用三种方法计算腔内插入透明介质对激光高斯光束聚焦的影响

开放式教学模式在人体及动物生理学课程教学中的应用

情境设计案例导入在护理技术教学中的应用

贵州省颌针鱼目一鱼类新纪录:鱵鱼

制药工程专业微生物学教学改革探究———以铜仁学院制药工程专业为例

乌江中华倒刺鲃仔、稚鱼耳石的形态发育与生长

迈克尔逊干涉仪测定金属线胀系数实验分析--升温测量和降温测量

贵州石阡河切尾拟鲿鱼食性研究

二滩水电站库区瓦氏黄颡鱼性腺发育研究

复方苗药对动脉粥样硬化模型大鼠脑基底动脉血管内皮作用的影响

光栅最小偏向角法测量汞灯谱线波长的理论和实验验证

锦江鱼类资源现状与物种多样性分析

贵州锦江翘嘴鲌的年龄、生长和资源利用研究

数学语境及其特征

英语课堂提问中教师“支架”的构建

英语教师课堂反馈中维护学生“面子”的有效策略探索

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679