位置:成果数据库 > 期刊 > 期刊详情页
基于改进DE-Tri-Training算法的汉语多词表达抽取
  • ISSN号:1004-9037
  • 期刊名称:《数据采集与处理》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]金陵科技学院软件工程学院,南京211169, [2]山西大学计算机与信息技术学院,太原030006, [3]苏州市职业大学计算机工程学院,苏州215104
  • 相关基金:国家自然科学基金(61100138,61402134,11601202)资助项目; 江苏省“333”工程高层次人才培养(BRA2015108)资助项目; 金陵科技学院高层次人才工作启动费(40620022)资助项目; 江苏省高校自然科学研究面上(16KJB520013,14KJB520013)资助项目; 山西省自然科学基金(2011011016-2)资助项目; 山西省回国留学人员科研(2013-022)资助项目; 山西省2012年度留学回国人员科技活动择优资助项目
中文摘要:

多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数据净化方法,提出了半指导策略抽取汉语多词表达,聚类算法的中后期也加入有指导的信息,使分类器能使用正确的标注信息进行训练。通过与DETri-Training算法的对比实验,改进的DE-Tri-Training算法得到的汉语多词表达抽取结果优于原来的算法,验证了改进DE-Tri-Training算法的有效性。

英文摘要:

Failing to identify multiword expression(MWE)may cause serious problems for many natural language processing(NLP)tasks.Because of lacking of Chinese MWE tagging corpus,a semi supervised method is used to extract Chinese MWE.DE-Tri-Training semi-supervised clustering algorithm uses supervised information in the beginning of the cluster,and obtains good results.The selection method of original cluster center based head word expansion and the consistency collaborative learning data depuration method based supervised information are proposed,which adds the supervised information into the mid and late steps of clustering,so that classifiers can use correct label information to train it.The contrast experiment show that the extraction results of Chinese multi-word expression using the improved DE-Tri-Training algorithm are better than that of using unimproved one.The effectiveness of the improved DE-Tri-Training algorithm is thus verified.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《数据采集与处理》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会 仪器仪表学会 信号处理学会 中国一汽仪表学会 中国物理学会 微弱信号检测学会 南京航空航天大学
  • 主编:贲德
  • 地址:南京市御道街29号
  • 邮编:210016
  • 邮箱:sjcj@nuaa.edu.cn
  • 电话:025-84892742
  • 国际标准刊号:ISSN:1004-9037
  • 国内统一刊号:ISSN:32-1367/TN
  • 邮发代号:28-235
  • 获奖情况:
  • 中国科技论文统计源用刊,2007年被评为江苏省优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:8148