位置:成果数据库 > 期刊 > 期刊详情页
一种MDP基于性能势的并行Q学习算法
  • ISSN号:1004-731X
  • 期刊名称:《系统仿真学报》
  • 时间:0
  • 分类:TP202[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
  • 作者机构:[1]合肥工业大学计算机与信息学院,合肥230009, [2]合肥工业大学管理学院,合肥230009
  • 相关基金:基金项目:国家自然科学基金项目(60404009);安徽省自然科学基金项目(070416242,090412046);安徽高校省级自然科学研究重点项目(KJ2007A063)
中文摘要:

在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。仿真实验表明并行Q学习算法的有效性。

英文摘要:

Based on performance potential, some unified parallel implementation methods of Q-learning were considered for Markov decision processes (MDPs) with both average- and discounted criteria. An independent parallel Q-learning algorithm and a state-partition parallel Q-learning algorithm were proposed, where the synchronization strategy was mainly discussed, that is, how to choose synchronization point, and the building strategy of Q values, that is, how to construct new Q-factors with some of the derived Q-factors. A synchronization strategy was provided by combining fixed step with offset step. In addition, the principle for establishing building strategy was analyzed, and then some methods were provided for obtaining building strategy. The simulation results illustrate the effectiveness of the proposed parallel algorithms.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《系统仿真学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团公司
  • 主办单位:北京仿真中心 中国仿真学会
  • 主编:李伯虎
  • 地址:北京市海淀区永定路50号院
  • 邮编:100039
  • 邮箱:simu-xb@vip.sina.com
  • 电话:010-88527147
  • 国际标准刊号:ISSN:1004-731X
  • 国内统一刊号:ISSN:11-3092/V
  • 邮发代号:82-9
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:51729