东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

蒙古文原始语料统计建模研究

ISSN号：1003-0077
期刊名称：《中文信息学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]内蒙古社会科学院蒙古语信息技术研发中心,内蒙古呼和浩特010020, [2]内蒙古蒙科立软件股份有限公司,内蒙古呼和浩特010011
相关基金：国家电子发展基金2010年度、2011年度蒙古文专项;国家自然科学基金（61163020）;内蒙古自治区自然科基金（2011MS0918）

作者：白双成[1,2]

关键词：蒙古文原始文本, 统计建模, 读音错误, 字形错误, 智能输入, Mongolian corpus, statistical language model, pronunciation error, spelling error, intelligent input method

中文摘要：

蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值。

英文摘要：

The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts. To address this issue for spelling input, this pa per adopts a large dictionary with correct pronunciations, training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence. Experiments indicate a more efficient spelling in put method is achieved, which is also enlightening for ＂pronunciation-to-word＂ coversion and ＂spelling-to-word＂ conversion.

同期刊论文项目

蒙古文多层次形态分析研究

期刊论文 4 会议论文 1 获奖 1 著作 2

同项目期刊论文

蒙古文输入法输入码方案研究

蒙古文拼写形式多样化问题研究

基于OpenType的国际音标字库研究与实现

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136