东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于概率模型的动态分层强化学习

ISSN号：1000-8152
期刊名称：控制理论与应用
时间：0
页码：1596-1600
语言：中文
分类：TP273[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
作者机构：[1]中南大学信息科学与工程学院,湖南长沙410083
相关基金：国家自然科学基金资助项目（60874042）; 中国博士后科学基金一等资助项目（20080440177）;中国博士后科学基金特别资助项目（200902483）; 教育部高等学校博士点基金新教师基金资助项目（20090162120068）
相关项目：基于动态分层与自学习的多智能体自适应协作模型

关键词：动态分层强化学习, 贝叶斯学习, 状态转移概率模型, 智能体, dynamic hierarchical reinforcement-learning, Bayesian learning, state-transition probability model, agent

中文摘要：

为解决大规模强化学习中的＂维度灾难＂问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.

英文摘要：

To deal with the overwhelming dimensionality in the large-scale reinforcement-learning and the strong depen-dence on prior knowledge in existing learning algorithms,we propose the method of dynamic hierarchical reinforcement learning based on the probability model（DHRL--model）.This method identifies some key states automatically based on probability parameters of the state-transition probability model established based on Bayesian learning,then generates some state-subspaces dynamically by clustering,and learns the optimal policy based on hierarchical structure.Simulation results show that DHRL--model algorithm improves the learning efficiency of the agent remarkably in the complex environment,and can be applied to learning in the unknown large-scale world.

同期刊论文项目

　基于动态分层和状态预测自学习的多智能体协作模型

期刊论文 8

基于动态分层与自学习的多智能体自适应协作模型

期刊论文 16 会议论文 6

同项目期刊论文

基于点的POMDPs在线值迭代算法

无路标环境下遥操作机器人SLAM系统

多智能体系统中子域适应度评估的合作协进化协作

Balanced reactive-deliberative architecture for multi-agent system for simulation league of RoboCup

基于广义逆非负矩阵分解的无线传感器网络节能通信

结合带权与或树和AOE-网的任务规划研究

机器人救援的目标吸引动态路径规划蚁群算法

基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法

基于信念重用的WSNs能量高效跟踪

基于动态贝叶斯网络的可分解信念状态空间压缩算法

认知无线电中基于特征信念的协作频谱检测算法

Web GIS碳排放预警决策系统的研究与设计

基于等级变异的克隆选择算法

非达尔文效应多目标免疫算法

Cooperative learning with joint state value approximation for multi-agent systems