位置:成果数据库 > 期刊 > 期刊详情页
面向非结构化文本的开放式实体属性抽取
  • ISSN号:1000-5862
  • 期刊名称:《江西师范大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院自动化所模式识别国家重点实验室,北京100190
  • 相关基金:国家自然科学基金(61070106); 国家“973”计划(2012CB316300); 清华信息科学与技术国家实验室(筹)基金资助项目
中文摘要:

从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.

英文摘要:

An approach for extracting attribute-value pairs of a given entity has been proposed,regarding attribute-value extraction as a sequential data-labeling problem.In order to avoid label the corpus manually,the information in the Infoboxes of Baidu encyclopedia is used to label the unstructured text as the training data.After the training data was generated,multidimensional features are used to train the sequential data-labeling model,and then the performance is improved by using the context.Experiments shows that this method can be used in many classes of the Baidu encyclopedia,and this method can be also used in other websites.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江西师范大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:江西师范大学
  • 主办单位:江西师范大学
  • 主编:
  • 地址:南昌市紫阳大道99号
  • 邮编:330022
  • 邮箱:lk8506184@126.com
  • 电话:0791-88506814
  • 国际标准刊号:ISSN:1000-5862
  • 国内统一刊号:ISSN:36-1092/N
  • 邮发代号:44-56
  • 获奖情况:
  • 2009年中国高等学校自然科学学报研究会颁发“全国...,2009年被评为:第四届华东地区优秀期刊奖”,2008年教育部科技司授予“第2届中国高校优秀科技...,2008年江西省新闻出版局授予“第3届江西省优秀期...,2004年教育部科技司授予“全国高校优秀科技期刊二...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5205