位置:成果数据库 > 期刊 > 期刊详情页
统计与词典相结合的领域自适应中文分词
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机学院社会计算与信息检索研究中心,黑龙江哈尔滨150001
  • 相关基金:国家自然科学基金重点项目(61133012);国家自然科学基金资助项目(60803093); 国家863重大项目(2011AA01A207); 核高基重大专项(2011ZX01042-001-001); 哈尔滨工业大学科研创新基金(HIT.NSRIF.2009069); 中央高校基本科研业务费专项资金(HIT.KLOF.2010064)
中文摘要:

基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。

英文摘要:

Generally,statistical methods for Chinese Word Segmentation don't have good domain adaptability owing to the specific training corpus.In practice,domain dictionaries are more easily achieved than humanly annotated segmentation corpus,and it contains plenty of domain information.We propose an approach which integrates dictionary information into statistical models(i.e.,CRF model in this paper) to realize domain adaption for Chinese Word Segmentation.Experimental results show that our approach have good domain adaption.When the test corpus is identical to the domain of training corpus,the F-measure value increases 2%;when test corpus is in a different domain of the training corpus,the F-measure value increases 6%.

同期刊论文项目
期刊论文 22 会议论文 14 著作 2
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136