位置:成果数据库 > 期刊 > 期刊详情页
基于信念点裁剪策略树的POMDP求解算法
  • ISSN号:1002-0411
  • 期刊名称:《信息与控制》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]深圳职业技术学院,广东深圳518055, [2]中南大学,湖南长沙410083
  • 相关基金:国家自然科学基金资助项目(61074058);广东省自然科学基金资助项目(S2011040004769).
中文摘要:

针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值.

英文摘要:

Large-scale partially observable Markov decision process (POMDP) suffers from the exponential growth of the policy tree and the difficulty of finding witness points (WPs). Based on the piecewise linearity and convexity of the value function, a belief point-based algorithm is proposed for policy tree incremental pruning and value iteration solution. When policy trees are generating, the algorithm uses boundary points for non-destructive pruning, and exploits intermediate points for destructive pruning. It also makes use of realtime belief states to solve approximate optimal solution. Comparison experiment results show that the proposed algorithm converges quickly and achieve high reward within less time.

同期刊论文项目
期刊论文 16 会议论文 6 获奖 4 专利 3
同项目期刊论文
期刊信息
  • 《信息与控制》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院沈阳自动化研究所
  • 主编:王天然
  • 地址:沈阳市南塔街114号
  • 邮编:110016
  • 邮箱:xk@sia.cn
  • 电话:024-23970049
  • 国际标准刊号:ISSN:1002-0411
  • 国内统一刊号:ISSN:21-1138/TP
  • 邮发代号:
  • 获奖情况:
  • 全国优秀期刊三等奖,中科院优秀期刊三等奖,辽宁省优秀期刊一等奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:12960