半Markov决策过程(SMDP)描述的一类实际人造系统,即受控半Markov系统,具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,本项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究基于Monto-Carlo仿真、TD学习和Q学习的NDP优化理论和算法。针对折扣性能准则和平均性能准则,将给出统一的理论框架和算法;参数空间或策略空间的探索中,将融入进化算法或模拟退火算法等全局搜索方法;同时给出并行算法;建立存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学意义。
半Markov决策过程(SMDP)描述的实际人造系统,即受控半Markov系统,代表了现实世界中计算机和通讯网络、自动化生产线、智能交通等广泛的一类离散事件动态系统,一般具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究了参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究了基于Monto-Carlo仿真、TD学习和Q学习等NDP优化理论和算法。针对折扣性能准则和平均性能准则,给出了统一的理论框架和算法;同时给出了有关并行算法;建立了存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。另外,项目还结合流水线智能加工站、多机器人协同搬运系统、网络路由和接入控制以及库存控制等实际问题进行了仿真应用研究。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学和应用意义。