位置:成果数据库 > 期刊 > 期刊详情页
一种基于示例轨迹的抽象动作树构造方法
  • ISSN号:1006-2475
  • 期刊名称:《计算机与现代化》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:苏州卫生职业技术学院,江苏苏州215009
  • 相关基金:国家自然科学基金资助项目(61373094)
作者: 王蕾
中文摘要:

自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更快收敛。

英文摘要:

Automatic construction of abstract action is one of the key technologies in hierarchical reinforcement learning. Skill chaining is a typical algorithm for automatically discovery abstract actions in continuous reinforcement learning domains,but the skill chaining algorithm needs to iterate many times and the convergence speed is slow. This paper presents an abstract action tree construction algorithm based on demonstration trajectories( ACADT). By using a change point detection method,ACADT segment each trajectory into a chain. The chains obtained from the multiple trajectories are merged into an abstract action tree. Experimental results show that ACADT can construct an abstract action tree and faster convergence.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机与现代化》
  • 中国科技核心期刊
  • 主管单位:江西省科学技术厅
  • 主办单位:江西省计算机学会 江西省计算技术研究所
  • 主编:刘波平
  • 地址:南昌市西湖区井冈山大道1416号8楼
  • 邮编:330003
  • 邮箱:jgsdd@163.com
  • 电话:0791-86490996
  • 国际标准刊号:ISSN:1006-2475
  • 国内统一刊号:ISSN:36-1137/TP
  • 邮发代号:44-121
  • 获奖情况:
  • 中国科技核心期刊 中国科技论文统计源期刊 江西省...
  • 国内外数据库收录:
  • 波兰哥白尼索引,中国中国科技核心期刊
  • 被引量:14808