位置:成果数据库 > 期刊 > 期刊详情页
基于观测的POMDP优化算法及其仿真
  • 期刊名称:信息与控制, 37(3): 346-351, 2008
  • 时间:0
  • 分类:O232[理学—运筹学与控制论;理学—数学]
  • 作者机构:[1]中国科学技术大学网络传播系统与控制联合实验室,安徽合肥230027
  • 相关基金:国家自然科学基金资助项目(60574065);国家863计划资助项目(2006AA012114);安徽省自然科学基金资助项目(050420301);中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目.
  • 相关项目:隐Markov过程的性能灵敏度分析与优化
中文摘要:

在分析马尔可夫决策过程(Markov Decision Process,MDP)性能灵敏度的基础上,讨论了部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的性能优化问题.给出了POMDP性能灵敏度分析公式,并以此为基础提出了两种基于观测的POMDP优化算法:策略梯度优化算法和策略迭代优化算法.最后以准许控制问题为仿真实例,验证了这两个算法的有效性.

英文摘要:

The problem of performance optimization for partially observable Markov decision process (POMDP) is addressed based on the sensitivity analysis of Markov decision process (MDP). The sensitivity analysis formulas are given. Based on these results, two observation-based optimization algorithms, i.e., policy-gradient and policy-iteration algorithms are developed for POMDP. To verify these algorithms, a simulation based on the problem of admission control is also presented.

同期刊论文项目
同项目期刊论文