位置:成果数据库 > 期刊 > 期刊详情页
基于强化学习的JLQ模型的直接自适应最优控制
  • ISSN号:1001-0920
  • 期刊名称:《控制与决策》
  • 时间:0
  • 分类:TP13[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]清华大学自动化系,北京100084, [2]清华大学智能与网络化系统研究中心,北京100084
  • 相关基金:国家自然科学基金项目(60574064,60736027).
中文摘要:

研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.

英文摘要:

The discrete-time direct adaptive optimal control problem of jump linear quadratic (JLQ) model is investigated. Reinforcement learning theory and approaches are applied to JLQ model and Q function-based policy iteration algorithm is designed to optimize system performance. When the system parameters and jump probabilities of modes are unknown, the parameter matrix with respcet to Q function is online estimated by observing system behavior under a given control law with recursive least square algorithm. Moreover, based on this matrix, a new policy which can improve system performanc is constructed. The algorithm can converge to the optimal policy.

同期刊论文项目
期刊论文 123 会议论文 71 获奖 12
同项目期刊论文
期刊信息
  • 《控制与决策》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:东北大学
  • 主编:张嗣瀛 王福利
  • 地址:沈阳市东北大学125信箱
  • 邮编:110004
  • 邮箱:kzyjc@mail.neu.edu.cn
  • 电话:024-83687766
  • 国际标准刊号:ISSN:1001-0920
  • 国内统一刊号:ISSN:21-1124/TP
  • 邮发代号:8-51
  • 获奖情况:
  • 1997年被评为辽宁省优秀编辑部,1999年期刊影响因子在信息与系统类期刊中排名第二位
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:32961