东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于连续时间半马尔可夫决策过程的犗狆狋犻狅狀算法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]合肥工业大学计算机与信息学院,合肥230009, [2]合肥工业大学电气与自动化工程学院,合肥230009
相关基金：本课题得到国家自然科学基金（61174188,71231004,61374158）、国家国际科技合作项目（2011FA-0440）、教育部新世纪优秀人才计划项目（NCET-11-0626）及高等学校博士学科点专项科研基金（博导类）（20130111110007）资助.

关键词：连续时间半Markov决策过程, 分层强化学习, Q学习, Continuous-Time Semi-Markov Decision Process （CT-SMDP）, Hierarchical Rein-forcement Learning （HRL）, Q-learning

中文摘要：

针对大规模或复杂的随机动态规划系统，可利用其分层结构特点或引入分层控制方式，借助分层强化学习（HierarchicalReinforcementLearning，HRL）来解决其“维数灾”和“建模难”问题．HRL归属于样本数据驱动优化方法，通过空间/时间抽象机制，可有效加速策略学习过程．其中，Option方法可将系统目标任务分解成多个子目标任务来学习和执行，层次化结构清晰，是具有代表性的HRL方法之一．传统的Option算法主要是建立在离散时间半马尔可夫决策过程（Semi-MarkovDecisionProcesses，SMDP）和折扣性能准则基础上，无法直接用于解决连续时间无穷任务问题．因此本文在连续时间SMDP框架及其性能势理论下，结合现有的Option算法思想，运用连续时间SMDP的相关学习公式，建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型，并给出相应的在线学习优化算法．最后通过机器人垃圾收集系统为仿真实例，说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性，同时也说明其与连续时间模拟退火Q学习相比，具有节约存储空间、优化精度高和优化速度快的优势．

英文摘要：

For large-scale or complex systems with stochastic dynamic programming, we can refer to hierarchical reinforcement learning （HRL） to overcome the curse of dimensionality and the curse of modeling according to their hierarchical structures or hierarchical control modes. HRL belongs to the methodology of sample data-driven optimization, and due to the introduction of spatial or temporal abstraction mechanism, it can be used to accelerate the process of policy learning. The Option method is one of the HRL techniques which can decompose the task of the system into multiple subtasks for learning and implementation. The traditional Option methods are based on discrete-time semi-Markov decision process （SMDP） with discounted criteria, which cannot apply to continuous-time infinite tasks. Therefore, in this paper, we extend the existing Option algorithms to continuous-time case by utilizing relative learning formula of continuous- time SMDPs, and propose a unified online Option algorithm that applies to either average or discounted criteria. The algorithm is under the framework of performance potential theory and continuous-time SMDP model. Finally, we illustrate the effectiveness of the proposed HRLalgorithm in solving the optimization problem of continuous-time infinite tasks by a robotic garbage collection system. The simulation results show that it needs less memory, and has better optimization performance and faster learning speed than a continuous-time flat Q-learning algorithm based on simulated annealing technique.

同期刊论文项目

基于可拓Petri网的复杂动态城市公交调度建模及仿真

期刊论文 48

无线接入网QoS保证的节能控制建模与协同策略优化

期刊论文 6

物联网资源协同优化与组织管理的理论和方法

期刊论文 15

同项目期刊论文

结合批量问题的多目标矩形件优化排样

直觉判断矩阵的直觉模糊数型权重研究

群决策中决策发起人与专家之间的委托-代理均衡

区间互补判断矩阵的拟一致性及其权重研究

基于顺序启发式进化算法的多目标一维下料问题

基于混合顺序启发式算法的一维下料问题

改进GA优化BP神经网络的短时交通流预测

一种基于多Agent强化学习的无线传感器网络多路径路由协议

基于F统计量的群决策结果偏差的一致性检验

基于状态聚类的多站点CSPS系统的协同控制方法

A Multi-dimensional Trust-aware Cloud Service Selection Mechanism Based on Evidential Reasoning Approach

基于统计方法的专家序结果集结方法及应用

GRAPH COLORING BASED CHANNEL ASSIGNMENT FRAMEWORK FOR RURAL WIRELESS MESH NETWORKS

两类品种工件混流的多站点CSPS系统优化控制

单线公交车辆组合调度与购车计划的双层规划模型

随机旅行时间的区域公交车调度模型及算法

Mixed Platoon Flow Dispersion Model Based on Speed-Truncated Gaussian Mixture Distribution

一种新型车队离散模型及其应用

基于步行到站者出行时间的独立BRT走廊站距优化模型

假设速度服从截断正态分布的公交车队密度离散模型

基于速度截断对数正态分布的车队密度离散模型

基于速度截断对数正态分布的车队流量离散模型

运力限制下区间车与全程车的组合调度模型

预算限制下的单线公交车辆组合调度模型. 吉林大学学报（工学报）2014, 44（1）, 54-61.

  考虑客流量差异的区域公交车辆调度. 华南理工大学学报（自然科学版），2014，42（8），112-121.

 . Density-based mixed platoon dispersion modelling with truncated mixed Gaussian distribu

 方式选择效用函数的临界属性. 华南理工大学学报（自然科学版），2014，42（3），41-46.

A Platoon Dispersion Model Based on a Truncated Normal Distribution of Speed

大城市“城中村”微循环公交评价研究——以广州市为例

基于累积前景理论的公交调度优化灰关联评价方法

求解多目标区域公交车辆调度问题的遗传算法

不确定性区域公交车调度问题的双层规划模型

考虑客流量差异的区域公交车辆调度

基于速度截断分布和流量的车队离散模型

预算限制下的单线公交车辆组合调度模型

方式选择效用函数的临界属性

基于巢式Logit模型的航空港集疏运方式选择研究

厦深铁路对汕尾市公路客运的影响研究及发展策略探讨

灰色旅行时间的区域公交车辆调度模型和算法

配合区间车的单线公交组合调度模型

 Analysis of Freeway Service Patrol with Discrete Event-based Simulation. Simulation Model

 基于速度截断分布和流量的车队离散模型.西南交通大学学报, 2014,49(1), 126-133.

区域公交车辆调度及购车计划的双层规划模型

区域公交车辆调度问题的可靠性

基于弱势群体的广州BRT系统无障碍设施改善研究

Density-based mixed platoon dispersion modelling withtruncated mixed Gaussian distribution of speed

一种车速对数正态分布的车队离散模型

基于修正算法的高速公路路段旅行时间估计

新城土地利用空间分布模拟与交通需求预测

肩回交路条件下多机牵引机车周转图的优化

新城土地利用与交通模型

服务率不确定的单站点传送带给料加工站系统鲁棒优化控制

基于半马尔可夫控制过程的智能电网最优储能控制

智能电网弹性响应时间业务需求的接入控制

一种基于多Agent强化学习的无线传感器网络多路径路由协议

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433