位置:立项数据库 > 立项详情页
基于合成样本和MCE准则下判别学习的汉字手写文本识别研究
  • 项目名称:基于合成样本和MCE准则下判别学习的汉字手写文本识别研究
  • 项目类别:面上项目
  • 批准号:60975020
  • 申请代码:F030405
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:张田文
  • 负责人职称:教授
  • 依托单位:哈尔滨工业大学
  • 批准年度:2009
中文摘要:

在手写文本库的支持下,从无切分的全新角度研究真实手写环境中的脱机汉字识别,是汉字手写识别从孤立汉字走向真实文本这一新里程的核心技术。无切分策略是把字符切分阶段和识别阶段合二为一,并进行联合优化,旨在充分利用手写文本行的整体信息,这一策略的可行性和有效性,以及与现有切分策略的互补性已经在前期研究工作中得到证实。本项目将在此基础上,研究汉字手写文本识别中的三项关键技术:1).建立中文手写文本库HIT-MW(第二版),并对保证手写文本库的代表性、典型性的方法和验证机制进行研究;2).研究汉字手写样本合成理论,通过建立自学习、自适应的合成样本,有效克服库中存在的数据稀疏问题;3).研究基于最小分类错误准则的判别学习方法,有望解决无切分识别策略的松散训练结构,提高字符模型的区分能力。本项目为进一步研究汉字手写文本识别的系综分类理论奠定坚实的理论基础,并为汉字手写识别的各种应用提供有力的技术支持。

结论摘要:

从无切分的全新角度研究真实手写环境中的脱机汉字识别,是汉字手写识别从孤立汉字走向真实文本这一新里程的核心技术。无切分策略是把字符切分阶段和识别阶段合二为一,并进行联合优化,旨在充分利用手写文本行的整体信息,这一策略的可行性和有效性,以及与现有切分策略的互补性已经在前期研究工作汇总得到证实。 本项目研究汉字手写文本识别中的三项关键技术1)扩建中文手写文本库HIT-MW;2)研究汉字手写样本合成理论,通过建立合成样本,有效克服库中存在的数据稀疏问题;3)研究基于最小分类错误准则的判别学习方法,提高字符模型的区分能力。本项目为进一步研究汉字手写文本识别的系综分类理论奠定坚实的理论基础,并为汉字手写识别的各种应用提供有力的技术支持。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 3
  • 1
  • 0
  • 0
  • 1
相关项目
期刊论文 21 会议论文 30
期刊论文 2 会议论文 4 著作 1
期刊论文 4 会议论文 3 获奖 4 著作 5
期刊论文 11 会议论文 9
张田文的项目