位置:成果数据库 > 期刊 > 期刊详情页
中文语料库分词不一致的分类处理研究
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP39[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学计算机与信息技术学院,山西太原030006
  • 相关基金:国家“863”高技术研究发展计划项目(2001AA4031);国家自然科学基金(60473139);山西省自然科学基金(20051034)
中文摘要:

大规模语料库中分词结果不一致现象影响着语料库分词质量.在对150万汉字熟语料进行了统计分析的基础上,我们定义了语料库中分词结果不一致的主要结构类型;采用规则的方法检验校对字串的分词不一致,在对150万汉字语料库的封闭测试中,正确率为86.94%.

英文摘要:

The inconsistency of segment for Chinese statistic and analysis of the Chinese corpus for 1.5 for the segment inconsistencies was defined, and corpus impacts the quality of the corpus. Based on the million Chinese characters ,the main types of structure the inconsistencies were checked by using a regular method. The corpus were close tested ,and the correct rate was 86.94 %.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651