位置:成果数据库 > 期刊 > 期刊详情页
基于AdaBoost.MH算法的汉语多义词消歧
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机科学与技术系,大连116024
  • 相关基金:国家自然科学基金资助项目(60373095;60373096)
中文摘要:

本文提出一种基于AdaBoost.MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost.MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率.通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost.MH算法获得了较高的开放测试正确率(85.75%).

英文摘要:

An approach based on supervised AdaBoost. MH learning algorithm for Chinese word sense disambiguation is presented. AdaBoost. MH algorithm is employed to boost the accuracy of the weak decision stumps rules for trees and repeatedly calls a learner to finally produce a more accurate rule. A simple stopping criterion is also presented. In order to extract more contextual information, we introduce a new semantic categorization knowledge which is useful for improving the learulng efficiency of the algorithm and accuracy of disamhiguation, in addition to using two classical knowledge sources, part-of-speech of neighboring words and local collocations. AdaBoost. MH algorithm making use of these knowledge sources achieves 85.75% disambiguafion accuracy in open test for 6 typical polysemous words and 20 polysemous words of SENSEVAL3 Chinese corpus.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136