针对藏族地区信息处理技术的重要性,以及当前联机手写藏文识别技术尚不能完全解决支持连续书写的藏文手写输入的问题,本项目以联机手写藏文音节识别为研究对象,通过分析藏文音节的结构特点,以部件为识别基元,结合部件统计识别方法和基于部件的结构识别方法的优点,提出一种基于部件的联机手写藏文音节识别框架。首先,研究基于部件的藏文音节的切分算法,以解决字丁/部件之间粘连和重叠的问题;其次,研究音节识别框架中需要集成的四个子模型(部件分类模型、基于字丁的语言模型、字丁-部件生成模型和几何模型)的构建;最后,基于音节过切分的结果,利用集成切分与识别的思想,将这四个子模型集成到统一的识别框架下,研究多个子模型的信息融合和参数学习方法,根据最大后验准则对切分和识别进行评价,最终得到音节的切分和识别结果。该研究成果中的关键技术可以应用到基于笔式交互的移动设备中,并为联机手写藏文文档的分析与识别奠定研究基础。
英文主题词component;syllable;semi-automatic;rule;on-line handwritten Tibetan syllable recognition