位置:成果数据库 > 期刊 > 期刊详情页
在部分观测环境下学习规划领域的派生谓词规则
  • ISSN号:0254-4164
  • 期刊名称:计算机学报
  • 时间:0
  • 页码:-
  • 分类:TP182[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]广东工业大学计算机学院,广州510090, [2]暨南大学信息科学与技术学院计算机科学系,广州510632, [3]中山大学信息科学与技术学院软件研究所,广东510275
  • 相关基金:中央高校基本科研业务费专项资金(21615438); 国家自然科学基金(61100134,61003179,61272073); 广东省自然科学基金(S2013020012865,S2011040001427)资助
  • 相关项目:智能规划中派生谓词规则和不确定动作模型的自动获取
中文摘要:

文中提出了一种在部分观测环境下学习规划领域的派生谓词规则的方法.在规划领域描述语言(PDDL)中,派生谓词用来描述动作的非直接效果,是规划领域模型和搜索控制知识的重要组成部分.然而,对于大多数规划领域而言,从无到有地构造派生谓词规则是不容易的.因此,研究自动获取派生谓词的推导规则是有意义的.已有研究工作提出通过修订一个初始的不完备的领域理论来获取推导规则的方法,但是它们的主要缺点在于待学习谓词的训练例的数量非常少,这是因为训练例按照非常有限的方式来生成.而更本质的原因在于它们假设环境是不可观测的.其实,在现实生活中很多动作的非直接效果是可以观测的,或者通过简单的目测或者通过专门的工具.因此文中提出增加观测来反映动作的非直接效果,以便增加待学习谓词的训练例数目从而改善学习的精准度.此外,为了补充一些在归纳学习过程中学习不到的谓词,文中还提出了一个后处理方法来使得学习到的规则在语义上更完整.通过在派生谓词基准领域上的实验表明,文中所提出的方法是可行有效的.更深远的意义在于,文中的研究工作有利于规划领域的自动建模或者控制知识的自动获取的研究与实现.

英文摘要:

This paper presents a method to learn derived predicate rules for planning domains under partial observability.In the PDDL(Planning Domain Description Language),derived predicates are a compact way to describe indirect effects of actions,and an important part of planning domain models or search control knowledge.However,for most planning domains,it is not easy to write derived predicate rules from scratch,even for experts.Therefore,it is worthy of studying how to automatically acquire rules for derived predicates from observed plans.There has been some research work on gaining derived rules by refining an initial and imperfect domain theory.But,their primary disadvantage was that the number of training examples for predicates to be learned was very small since training examples were produced in a very limited way.The underlying reason was that they assumed that the environment was unobservable.In fact,in the real world,many indirect effects of actions are observable by simple eye-measurement or tools.This paper uses observations to reflect actions' indirect effects in order to increase the number of trainingexamples and to improve the learning accuracy.Also,to complement some predicates which cannot be learned by the inductive learning method,this paper gives a post-processing algorithm to make the semantics of learned rules more perfect.Experiments on some benchmark domains show that,the method presented in this paper is feasible and effective.And further,the work in this paper is beneficial for the study on automatically modeling planning domains and automatically acquiring control knowledge.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433