位置:成果数据库 > 期刊 > 期刊详情页
基于概率模型的动态分层强化学习
  • ISSN号:1000-8152
  • 期刊名称:控制理论与应用
  • 时间:0
  • 页码:1596-1600
  • 语言:中文
  • 分类:TP273[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
  • 作者机构:[1]中南大学信息科学与工程学院,湖南长沙410083
  • 相关基金:国家自然科学基金资助项目(60874042); 中国博士后科学基金一等资助项目(20080440177);中国博士后科学基金特别资助项目(200902483); 教育部高等学校博士点基金新教师基金资助项目(20090162120068)
  • 相关项目:基于动态分层与自学习的多智能体自适应协作模型
中文摘要:

为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.

英文摘要:

To deal with the overwhelming dimensionality in the large-scale reinforcement-learning and the strong depen-dence on prior knowledge in existing learning algorithms,we propose the method of dynamic hierarchical reinforcement learning based on the probability model(DHRL--model).This method identifies some key states automatically based on probability parameters of the state-transition probability model established based on Bayesian learning,then generates some state-subspaces dynamically by clustering,and learns the optimal policy based on hierarchical structure.Simulation results show that DHRL--model algorithm improves the learning efficiency of the agent remarkably in the complex environment,and can be applied to learning in the unknown large-scale world.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《控制理论与应用》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:华南理工大学 中国科学院数学与系统科学研究院
  • 主编:胡跃明
  • 地址:广州五山路华南理工大学3号楼516室
  • 邮编:510640
  • 邮箱:aukzllyy@scut.edu.cn
  • 电话:020-87111464
  • 国际标准刊号:ISSN:1000-8152
  • 国内统一刊号:ISSN:44-1240/TP
  • 邮发代号:46-11
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:21084