位置:成果数据库 > 期刊 > 期刊详情页
基于最大匹配和歧义检测的中文分词粗分方法
  • ISSN号:1671-4598
  • 期刊名称:《计算机测量与控制》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国石油大学地球物理与信息工程学院, [2]中国石油大学(北京)油气资源与探测国家重点实验室, [3]中国石油化工股份有限公司石油勘探开发研究院信息所
  • 相关基金:国家自然科学基金(60473125);中国石油(CNPC)石油科技中青年创新基金(5E7013);国家重大专项子课题(G5800-08-ZS-WX)
中文摘要:

中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好效果。

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机测量与控制》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团公司
  • 主办单位:中国计算机自动测量与控制技术协会
  • 主编:苟永明
  • 地址:北京海淀区阜成路甲8号中国航天大厦405
  • 邮编:100048
  • 邮箱:ly@chinamca.com
  • 电话:010-68371578 68371556
  • 国际标准刊号:ISSN:1671-4598
  • 国内统一刊号:ISSN:11-4762/TP
  • 邮发代号:82-16
  • 获奖情况:
  • 中国学术期刊综合评价数据库来源期刊,中国科技论文统计源期刊,“国家期刊奖百种重点期刊”
  • 国内外数据库收录:
  • 美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版)
  • 被引量:27924