位置:成果数据库 > 期刊 > 期刊详情页
一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用
  • ISSN号:1002-0470
  • 期刊名称:《高技术通讯》
  • 时间:0
  • 分类:TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TN912.34[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,150001
  • 相关基金:国家自然科学基金(60435020)和863计划(2002AA117010-09)资助项目.
中文摘要:

针对汉语语言模型中的数据稀疏问题,利用词语语义信息,将词语相似度同back-off平滑技术相结合,提出一种基于词语相似度的汉语语言模型平滑技术,并且设计了一种能够自动优化模型中各项参数的迭代算法,最后,将这种平滑技术由低阶语言模型推广到高阶语言模型中,将上述技术应用到音字转换领域。实验表明,这项技术使语言模型的性能获得了较大的提高,并有效地降低了音字转换系统的错误率。

英文摘要:

By using word semantic information, this paper introduces a similarity-based smoothing algorithm for Chinese language modeling which combines word similarity calculation with back-off smoothing method, and presents an iterative method to optimize the parameters in the algorithm. Furthermore, the similarity-based smoothing algorithm is extended from low-level language model to high-level model. By applying the method to Pinyin-to-Chamcter conversion system, the experiment shows that the method improves the performance of language model significantly and reduces the error rate of pinyin-to-character conversion system effectively.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《高技术通讯》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国科学科技部
  • 主办单位:中国科学技术信息研究所
  • 主编:赵志耘
  • 地址:北京市三里河路54号
  • 邮编:100045
  • 邮箱:hitech@istic.ac.cn
  • 电话:010-68514060 68598272
  • 国际标准刊号:ISSN:1002-0470
  • 国内统一刊号:ISSN:11-2770/N
  • 邮发代号:82-516
  • 获奖情况:
  • 《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:12178