位置:成果数据库 > 期刊 > 期刊详情页
基于机器翻译的跨语言关系抽取
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学自然语言处理实验室,江苏苏州215006, [2]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金资助项目(60873150,90920004);江苏省自然科学基金资助项目(BK2010219);江苏省高校自然科学重大项目(11KJA520003)
中文摘要:

训练语料库的规模对基于机器学习的命名实体间语义关系抽取具有重要的作用,而语料库的人工标注需要花费大量的时间和人力。该文提出了使用机器翻译的方法将源语言的关系实例转换成目标语言的关系实例,并通过实体对齐策略将它们加入到目标语言的训练集中,从而使资源丰富的源语言帮助欠资源的目标语言进行语义关系抽取。在ACE2005中英文语料库上的关系抽取实验表明,无论是将中文翻译成英文,还是将英文翻译成中文,都对另一种语言的关系抽取具有帮助作用。特别是当目标语言的训练语料库规模较小时,这种帮助就尤其显著。

英文摘要:

The scale of training corpus plays an important role in machine learning-based semantic relation extraction between named entities,however,the annotation of corpus is time-consuming and labor-intensive.In order that a resource-rich language can help a resource-poor language in semantic relation extraction,we propose an approach to transforming relation instances from the source language to the target language via machine translation,and then add them into the training corpus of the target language by way of entity alignment.The experiments on the ACE2005Chinese and English corpora show that,Chinese and English can help each other in relation extraction.Furthermore,this help is particularly significant especially when the scale of training corpus in target language is small.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136