手写汉字识别是模式识别领域的重要分支,作为电子化中文文档的利器,对于整个国家具有战略意义。手写中文文本识别是最自然的汉字输入技术之一,但面临严峻的性能瓶颈。海量训练数据和判别学习都有助于性能的提升,却存在巨大的计算复杂度。本项目旨在从理论、算法和实现三个层面上设计基于分布式计算环境的高扩展判别学习方法。研究内容包括1)建立当前最先进的基准识别系统,特别提出一种新颖的轻量级隐马尔可夫模型;2)研究分布式判别学习理论框架,支持对算法的收敛性、泛化界和复杂度的分析;3)研究生成式基准系统的分布式判别学习方法,在扩展当前计算模型的基础上,实现手写中文文本识别系统的分布式判别学习。本项目将建立具有鲜明特色的分布式判别学习的完整体系;提出针对大类别序列模式判别学习的一系列创新方法。最终解决手写中文文本识别的性能和效率双重瓶颈,并得到可推广到其它领域的重要成果。
英文主题词Handwritten Chinese Character Recognition;Discriminative Learning;GPU Computing;Prototype Learning;Large-category Sequential Labeling