无论是印刷体还是手写体维吾尔文都具有草书的特点,主要以单词及句子的形式出现,虽然与英文一样也属于拼写文字,但有着明显不同,即印刷体英文字母间都有空白间隙,利用该间隙可分割出字母,实现基于字母识别。而维吾尔文笔画简单、字母不等宽、相似字母多、具有草书连体(连写)的特点,使字母切分难度加大,很难确定基本单元字母边界。因此我们试图以单词中的自然书写间隙中的连体段,包括字母作为识别单元,结合图像处理技术,模式识别技术,统计语言模型等方法,研究基于连体段的印刷体识别算法,探索基于连体段联机规范手写识别的关键技术,结合维吾尔文上下文相关语言模型和算法,基本实现基于连体段的印刷体和联机规范手写体的识别系统原型。在中国新疆使用的维吾尔等文种都借用了阿拉伯文和部分波斯文字符,是我国主要少数民族文字之一,开展该项技术研究是提升各民族信息化水平的迫切需要,是各民族共同与发展的迫切需要。
wordpart;visual features;Uyghur;recongnition;
本项目结合图像处理技术和模式识别方法,我们首先对国内外相关情况进行了调研,尤其分析和总结了前期研究成果以及印刷维吾尔文单词、连体段和字母之间外观特征,提出基于连体段的可视特征提取方法,该方法最大优点是无需通过大量扫描图像样张的训练(学习)构成训练集,直接从字母表中选择和提取字母4种形式的可视外观特征,结合机读单词中的字母形式构成单词特征模型。通过图像处理,找到图像单词中的连体段数、连体段的垂直投影峰值,在峰值区域获取同样可视特征。这些特征包括连体段起始、中间、结尾和独立形式。每种形式的可能包括的其他特征,构成单词的字符串特征模型。 根据单词的字符串特征模型,形成了10万单词的训练集,结合维吾尔文的词干特性,通过精确匹配和非精确匹配方法,实现了维吾尔文图像单词的识别。 其意义在于无需进行大规模扫描样本训练,简单方便,可应用于移动终端印刷识别。采用以上提到的印刷体识别技术和方法,减少或避免动用大量人力和物力采集样本过程。 存在问题目前识别率较低,需简单的调整选择特征方案,提高识别率。 另外在联机手写识别部分,做了些初步尝试,在维吾尔文联机手写识别过程的训练阶段,单词被切分成字母,经过特征提取和聚类形成特征向量作为模型的输入。构造出以字符为基元的隐马尔可夫模型(HMM),将其嵌入到识别字典网络中。通过基于HMM的分类识别器,最终得到识别结果。首次将消除延迟笔画、建立有延迟笔画和无延迟笔画的字典的方法应用于维吾尔文手写识别中,识别率不是很理想。在中国新疆使用的维吾尔等文种都借用了阿拉伯文和部分波斯文字符,是我国主要少数民族文字之一,开展该项技术研究是提升各民族信息化水平的迫切需要,是各民族共同与发展的迫切需要。世界上有1/7的人口在使用阿拉伯文,该项目的研究也具有相互借鉴意义。