大规模不确定性半Markov系统基于性能势的鲁棒控制和神经元-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

大规模不确定性半Markov系统基于性能势的鲁棒控制和神经元

项目名称：大规模不确定性半Markov系统基于性能势的鲁棒控制和神经元
项目类别：青年科学基金项目
批准号：60404009
申请代码：F030104
项目来源：国家自然科学基金
研究期限：2005-01-01-2007-12-31

项目负责人：唐昊
负责人职称：教授
依托单位：合肥工业大学
批准年度：2004

中文摘要：

半Markov决策过程（SMDP）描述的一类实际人造系统，即受控半Markov系统，具有状态空间规模大和模型参数不确定性两个重要特点，存在"建模难"和"维数灾"问题。项目首先针对参数不确定性，运用最新的SMDP性能势理论，研究参数相关和不相关两种情况下，求解最优鲁棒控制策略的有关理论和算法；其次，针对"维数灾"和"建模难"情形，本项目把SMDP性能势理论和先进的神经元动态规划（NDP）方法有机结合，根据系统的单个样本轨道，研究基于Monto-Carlo仿真、TD学习和Q学习的NDP优化理论和算法。针对折扣性能准则和平均性能准则，将给出统一的理论框架和算法；参数空间或策略空间的探索中，将融入进化算法或模拟退火算法等全局搜索方法；同时给出并行算法；建立存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学意义。

中文主题词：半Markov决策过程；性能势；最优鲁棒控制策略；神经元动态

英文摘要：

Semi-Markov decision processes

英文主题词： Semi-Markov decision processes

结论摘要：

半Markov决策过程（SMDP）描述的实际人造系统，即受控半Markov系统，代表了现实世界中计算机和通讯网络、自动化生产线、智能交通等广泛的一类离散事件动态系统，一般具有状态空间规模大和模型参数不确定性两个重要特点，存在"建模难"和"维数灾"问题。项目首先针对参数不确定性，运用最新的SMDP性能势理论，研究了参数相关和不相关两种情况下，求解最优鲁棒控制策略的有关理论和算法；其次，针对"维数灾"和"建模难"情形，项目把SMDP性能势理论和先进的神经元动态规划（NDP）方法有机结合，根据系统的单个样本轨道，研究了基于Monto-Carlo仿真、TD学习和Q学习等NDP优化理论和算法。针对折扣性能准则和平均性能准则，给出了统一的理论框架和算法；同时给出了有关并行算法；建立了存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。另外，项目还结合流水线智能加工站、多机器人协同搬运系统、网络路由和接入控制以及库存控制等实际问题进行了仿真应用研究。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学和应用意义。

成果综合统计