无论是印刷体还是手写体维吾尔文都具有草书的特点,主要以单词及句子的形式出现,维吾尔文的主笔划往往将几个字母沿着基线连在一起形成连体段(word-part)。隐含马尔科夫模型近二十年来成功地应用于语音识别技术,近几年来也成功地应用于文字识别方面,特别是在联机手写文字识别。我们通过结合图形、图像处理技术,隐含马尔科夫模型(HMM),统计语言模型等方法的研究。主要进展和所取得的成果包括手写样本采集、预处理、特征提取和聚类、基本实现了联机手写维吾尔字符识别系统原型。 基于HMM的维吾尔文联机手写识别系统建模虽然成功,但是识别结果还远远达不到我们预期的效果85%,目前平均识别率只有40%。在中国新疆使用的维吾尔等文种都借用了阿拉伯文和部分波斯文字符,是我国主要少数民族文字之一,开展维吾尔文联机手写字符识别技术研究是提升新疆信息化水平及中国多文种信息处理的迫切需要,是各民族共同繁荣与发展的迫切需要;世界上近3亿人口在使用阿拉伯文字符,开展这种跨境文字的识别技术研究,具有极高的理论价值、广阔的应用前景和商业意义。
英文主题词Uighur;onlinehandwriting;HMM;recognition