位置:成果数据库 > 期刊 > 期刊详情页
利用词性信息改进Katz平滑算法
  • ISSN号:0367-6234
  • 期刊名称:《哈尔滨工业大学学报》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金重点资助项目(60435020);国家高技术研究发展计划资助项目(2002AA117010-09).
中文摘要:

对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度.

英文摘要:

This paper reviewed existing smoothing methods for N - gram model firstly, and implemented the Absolute, W - B and Katz smoothing algorithms respectively. Traditional Katz algorithm couldn' t discount the probability when it smoothed Chinese collocation. We constructed new discounting coefficient based on Part-of- Speech information to resolve this problem. Calculated by the new discounting coefficient, discount could decrease when word frequency increased, and the more count of following word, the more discount. All this satisfied demand of smoothing methods. Experiment result showed that improved Katz smoothing algorithm could not only decrease the cross entropy of language model, but also increase the F measure when applied to Chinese word segmentation.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《哈尔滨工业大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工业大学
  • 主编:冷劲松
  • 地址:哈尔滨市南岗区西大直街92号
  • 邮编:150001
  • 邮箱:
  • 电话:0451-86403427 86414135
  • 国际标准刊号:ISSN:0367-6234
  • 国内统一刊号:ISSN:23-1235/T
  • 邮发代号:14-67
  • 获奖情况:
  • 2000年获黑龙省科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27329