位置:立项数据库 > 立项详情页
大规模不确定性半Markov系统基于性能势的鲁棒控制和神经元
  • 项目名称:大规模不确定性半Markov系统基于性能势的鲁棒控制和神经元
  • 项目类别:青年科学基金项目
  • 批准号:60404009
  • 申请代码:F030104
  • 项目来源:国家自然科学基金
  • 研究期限:2005-01-01-2007-12-31
  • 项目负责人:唐昊
  • 负责人职称:教授
  • 依托单位:合肥工业大学
  • 批准年度:2004
中文摘要:

半Markov决策过程(SMDP)描述的一类实际人造系统,即受控半Markov系统,具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,本项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究基于Monto-Carlo仿真、TD学习和Q学习的NDP优化理论和算法。针对折扣性能准则和平均性能准则,将给出统一的理论框架和算法;参数空间或策略空间的探索中,将融入进化算法或模拟退火算法等全局搜索方法;同时给出并行算法;建立存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学意义。

结论摘要:

半Markov决策过程(SMDP)描述的实际人造系统,即受控半Markov系统,代表了现实世界中计算机和通讯网络、自动化生产线、智能交通等广泛的一类离散事件动态系统,一般具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究了参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究了基于Monto-Carlo仿真、TD学习和Q学习等NDP优化理论和算法。针对折扣性能准则和平均性能准则,给出了统一的理论框架和算法;同时给出了有关并行算法;建立了存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。另外,项目还结合流水线智能加工站、多机器人协同搬运系统、网络路由和接入控制以及库存控制等实际问题进行了仿真应用研究。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学和应用意义。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 27
  • 7
  • 0
  • 0
  • 0
相关项目
唐昊的项目