东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于平行语料库的双语协同中文关系抽取

ISSN号：1001-9081
期刊名称：《计算机应用》
时间：0
分类：TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]昆明理工大学信息工程与自动化学院,昆明650500, [2]昆明理工大学教育技术与网络中心,昆明650500, [3]云南省计算机技术应用重点实验室昆明理工大学,昆明650500
相关基金：国家自然科学基金资助项目（81360230,81560296）

关键词：弱监督学习, 关系抽取, N-GRAM, 平行语料库, 双语协同训练, weakly-supervised learning, relation extraction, n-gram, parallel corpus, bilingual collaborative training

中文摘要：

针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。

英文摘要：

In the relation extraction of Chinese resources, the long Chinese sentence style is complex, the syntactic feature extraction is very difficult, and its accuracy is low. A bilingual cooperative relation extraction method based on a parallel corpus was proposed to resolve these above problems. In a Chinese and English bilingual parallel corpus, the English relation extraction classification was trained by dependency syntactic features which obtained by mature syntax analytic tools of English, the Chinese relation extraction classification was trained by n-gram feature which is suitable for Chinese, then they constituted bilingual view. Finally, based on the annotated and mapped parallel corpus, the training corpus with high reliability of both classifications were added to each other for bilingual collaborative training, and a Chinese relation extraction classification model with better performance was acquired. Experimental results on Chinese test corpus show that the proposed method improves the performance of Chinese relation extraction method based on weak supervision, its F value is increased by 3.9 percentage points.

同期刊论文项目

面向移动医疗的医学影像精准响应方法研究

期刊论文 5

医疗信息集成中消息交换性能优化技术研究

期刊论文 15

同项目期刊论文

基于排队论的Web服务社区最优服务数设置

Biometric feature extraction using local fractal auto-correlation

代理服务器中医学图像自适应分层切割缓存置换策略

基于特征加权的网络不良内容识别方法

面向微博可信度评估的辩论图模型

基于实时词共现网络的微博话题发现

基于标签相似度的不良信息多标签分类方法

联合分割和特征匹配的服装图像检索

基于HOG和E-SVM的服装图像联合分割算法

基于层叠条件随机场的中文医疗机构名识别

基于聚类集成的微博话题发现方法

智能导医系统中TF-IDF权重改进算法研究

基于多元特征的电商低质量商品评论识别

基于层叠条件随机场的微博热点话题跟踪

基于社会选择理论的在线服务评价

面向微博可信度评估的辩论图模型

基于聚类集成的微博话题发现方法

不确定服务质量感知的Web服务可行组合方案计算

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679