位置:成果数据库 > 期刊 > 期刊详情页
一种基于HMM和统计语言模型的维吾尔文及阿拉伯文识别方法
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:2015.1.15
  • 页码:171-174
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]清华大学电子工程系,清华信息科学与技术国家实验室,北京100084, [2]新疆大学信息科学与工程学院,新疆乌鲁木齐830046
  • 相关基金:国家自然科学基金项目(61032008,61261130590,61163031,60872086,60863009)
  • 相关项目:多民族文字识别及理解的理论与方法研究
中文摘要:

维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义。利用HTK工具包,分别建立基于隐马尔科夫模型HMM(Hidden Markov Model)的印刷体维吾尔文和阿拉伯文识别系统,其中特征提取部分采用分布密度特征和局部方向特征。研究利用HTK工具建立维吾尔文和阿拉伯文统计语言模型,并将语言模型用于改进识别系统性能。实验结果表明采用统计语言模型可有效提高文字识别系统性能。其中,在包含24 000个单词的印刷体维吾尔文测试集上,通过利用语言模型识别率从78.28%提高到97.45%;在包含759个单词的印刷体阿拉伯文测试集上,通过利用语言模型识别率从79.07%提高到85.80%。

英文摘要:

Uyghur and Arabic languages are the cursive characters using Arabic letters and written from right to left. The study on their recognition methods is of great significance to the use of the content in multilingual texts and images. We establish in the paper the recognition systems for printed Uyghur and Arabic text and images respectively based on hidden Markov model (HMM) by using HTK tools. In it the features extraction component adopts distribution density features and local directional features. In this paper, we also study to build statistical language models of Uyghur and Arabic respectively by using HTK tools as well, and apply the language models to improving the performance of recognition systems. Experimental results demonstrate that the use of statistical language models can effectively improve the performance of characters recognition system. Among them, on the test set of printed Uyghur containing 24 000 words, the recognition rate increases from 78.28% to 97.45% by using language model, and on test set of printed Arabic containing 759 words, the recognition rate increases from 79.07% to 85.80% by using language model.

同期刊论文项目
期刊论文 41 会议论文 33 获奖 5 著作 3
期刊论文 5 会议论文 8
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463