Markov跳变系统作为一类重要的动态随机系统,其现有的优化控制方法大多是建立在Lyapunov函数基础上的参数优化和性能指标优化,基本属于离线方法。基于策略迭代的控制算法是近几年提出的一种可应用于在线优化控制的算法,与离线方法相比,该方法并不要求系统模型完全已知。本项目拟通过建立描述状态量和控制量关系的一种无限时域的积分代价函数方程,使用策略评估与策略改进步骤,实现随机Markov跳变系统的在线策略迭代优化控制。针对线性跳变系统,结合状态反馈控制方法,在线求解代数Riccati方程以获取迭代的反馈控制器,及在线的优化控制策略;针对非线性跳变系统,应用T-S模糊控制和线性微分包含方法展开工作,并结合Actor-Critic学习控制算法和最小二乘算法,实现其在线的策略迭代优化控制器设计。通过上述内容的研究,提出适合随机Markov跳变系统的新的在线优化控制算法。
英文主题词Policy iteration;Markov jump systems;Optimal control;Feedback control;