位置:成果数据库 > 期刊 > 期刊详情页
基于弱监督的属性关系抽取方法
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西南交通大学信息科学与技术学院,成都610031
  • 相关基金:国家自然科学基金资助项目(61170111,61202043,61262058);中央高校基本科研业务费专项资金资助项目(SWJTU11ZT08);中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102).
中文摘要:

针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科务目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。

英文摘要:

In order to solve the problem of insufficient training corpus for extracting attribute relation from Chinese encyclopedia, a weakly supervised method was proposed, which needed minimal human intervention. First, semi-structured attribute relations from Chinese encyclopedia entry infoboxes were used to tag entry texts for obtaining training corpus. Second, the optimized training corpus was obtained based on Naive Bayesian theory. Third, Conditional Random Field (CRF) was used to form attribute relation extraction model. The evaluation of F-score on the Hudong encyclopedia datasets was 80.9%. The experimental result shows that this method can enhance the quality of training corpus and runs a better extraction performance.

同期刊论文项目
期刊论文 66 会议论文 38 获奖 20 著作 4
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679