位置:成果数据库 > 期刊 > 期刊详情页
中文分词任务中标注集合的选择方法
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:山西大学现代教育技术中心,太原030006
  • 相关基金:国家自然科学基金(60873128)
中文摘要:

统计分词模型需要使用合适的标注集合来将中文句子的分词问题转化成序列标注问题,因此,标注集合的选择是统计分词模型中需要解决的一个重要的问题。文章分别借助单因子方差分析、置信区间和p值三种方法来比较常用的几种标注集合对中文分词模型性能差异的显著程度。首先根据单因子方差分析方法得出标注集合对于中文分词模型性能的影响是显著的;其次,使用置信区间和p值来选择最优的标注集合。实验结果表明:在常用的标注集合中,标注集合BB2B3MSE可以明显地提升中文分词模型的性能。

英文摘要:

Statistical Chinese word segmentation models are usually casted as a sequential labeling problem,and a proper tagging set is provided as an important prerequisite condition,therefore,selection method for the proper tagging set is an important problem to be solved.We employ three methods of one-way ANOVA,confidential interval and p-value to compare several widely-used tagging sets.We firstly using oneway ANOVA to demonstrate that selection of tagging sets significantly affect performance of statistical Chinese word segmentation models.And then,we select the best tagging set through methods of confidential interval and p-value.The experiment results illustrates that BB2B3 MSE as a best tagging set can improve the performance of Chinese segmentation models obviously.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651