位置:成果数据库 > 期刊 > 期刊详情页
基于马氏决策过程模型的动态系统学习控制:研究前沿与展望
  • ISSN号:0254-4156
  • 期刊名称:自动化学报
  • 时间:2012
  • 页码:673-687
  • 分类:TP273.22[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
  • 作者机构:[1]国防科学技术大学机电工程与自动化学院自动化研究所,长沙410073, [2]中国科学院自动化研究所,北京100190, [3]复杂系统智能管理与控制国家重点实验室,北京100190, [4]美国亚利桑那大学系统与工业工程学院, [5]国防科学技术大学军事计算实验与平行系统技术研究中心,长沙410073
  • 相关基金:国家自然科学基金(61075072,90820302,60921061); 霍英东青年教师基金优选资助课题(114005); 教育部新世纪优秀人才支持计划(NCET-10-0901)资助~~
  • 相关项目:结构化增强学习及其在虚拟人运动规划中的应用
中文摘要:

基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。

英文摘要:

Learning control of dynamical systems based on Markov decision processes (MDPs) is an interdisciplinary research area of machine learning, control theory, and operations research. The main objective in this research area is to realize data-driven multi-stage optimal control for complex or uncertain dynamical systems. This paper presents a comprehensive survey on the theory, algorithms, and applications of MDP-based learning control of dynamical systems. Emphases are put on recent advances in the theory and methods of reinforcement learning (RL) and adaptive/approximate dynamic programming (ADP), including temporal-difference learning theory, value function approximation for continuous state and action spaces, direct policy search, approximate policy iteration, and adaptive critic designs. Applications and the trends for future research and developments in related fields are also discussed.

同期刊论文项目
期刊论文 113 会议论文 156 专利 20 著作 7
同项目期刊论文
期刊信息
  • 《自动化学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院自动化研究所
  • 主编:王飞跃
  • 地址:北京东黄城根北街16号
  • 邮编:100717
  • 邮箱:aas@ia.ac.cn
  • 电话:010-64019820
  • 国际标准刊号:ISSN:0254-4156
  • 国内统一刊号:ISSN:11-2109/TP
  • 邮发代号:2-180
  • 获奖情况:
  • 1997年获全国优秀期刊奖,1985、1990、1996、2000年获中国科学院优秀期刊二等奖,2002年获国家期刊奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27550