位置:成果数据库 > 期刊 > 期刊详情页
基于元性质的数量型属性值自动提取系统的实现
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院研究生院,北京100049, [2]中国科学院计算技术研究所智能信息处理重点实验室,北京100190
  • 相关基金:国家自然科学基金项目(60573064 60773059); 国家“八六三”高技术研究发展计划基金项目(2007AA01Z325)
中文摘要:

实体属性值抽取是信息抽取的重要组成部分.针对数量型属性类型多样以及取值易变的问题,设计实现了一种基于元性质的数量型属性值自动抽取系统.对系统的结构、功能框架以及相关核心技术,包括提取文本的选择、候选值的提取及评估、结果的自动验证等进行了详细讨论.通过对百度百科的五大类9个子类实体数量型属性值的抽取,平均准确率和召回率分别达到71%和89%,高于基于简单搜索的方法和传统的基于词汇-句模的方法.该方法适用于开放领域的数量型属性值获取,易于获取单值属性的精确取值.

英文摘要:

Attribute value extraction is an important task of information extraction.However,the heterogeneous attributes and the natural language processing bottleneck make this problem more difficult and complex.In addition,most quantity attributes are single-valued and variable,thus it's difficult to find out the accurate value of those attributes.Most research works are based on semi-supervision methods or lexico-syntactic patterns,however these methods overlook the properties of quantity attributes and require much effort to ensure the reliability of extraction results.In this paper,the definition of meta-property is given to avoid these drawbacks,and a novel approach to attribute-value extraction based on meta-property is proposed to avoid the drawback of traditional methods.The system is implemented and the overall structure and major components of the system are presented,including textual information source selection,candidate extraction,candidate evaluation and automatic verification.Experiments are carried out on 5 kinds of entity types and their 9 subtypes from Baidu encyclopedia.Experimental results show that the new approach achieves an average precision up to 71% and an average recall of 89%,significantly higher than general query-based approaches and traditional lexico-syntactic pattern based methods.The new approach has a better generalization capability on open domain attribute-value extraction,especially on the singled-valued attribute.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349