位置:立项数据库 > 立项详情页
基于分段条件随机场的连续语音识别技术
  • 项目名称:基于分段条件随机场的连续语音识别技术
  • 项目类别:面上项目
  • 批准号:61175017
  • 申请代码:F030404
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:屈丹
  • 依托单位:中国人民解放军信息工程大学
  • 批准年度:2011
中文摘要:

连续语音识别技术对国家信息安全有重要的意义。当前主流的基于连续密度隐马尔可夫模型(CDHMM)的大词汇量连续语音识别方法没有考虑人的思维认知过程,忽略了很多高层知识,因此可以提高的性能有限。因此,需要研究多元、多颗粒度信息整合的连续语音识别框架、模型和技术。分段条件随机场(SCRF)在多层次信息有效整合方面具有独特优势,因此,本项目主要研究基于分段条件随机场的连续语音识别模型及关键技术。首先在语音信息表示机理方面,研究多元、多颗粒度信息特征表示方法,包括新型模板匹配识别、点过程模型、说话人自适应等信息的表示;其次研究分段条件随机场的信息整合机制,减少对整合信息的条件限制;最后将多种信息最大限度地整合到分段条件随机场,实现更符合人类思维认知的连续语音识别。本项目研究将有望解决HMM模型连续语音识别面临的瓶颈问题,丰富语音识别的理论算法,为从深层次、多角度认知与语音提供有效手段。

结论摘要:

主流连续语音识别采用数据驱动的模型方法,忽略了语音认知知识,因此基于多元、多颗粒度信息整合框架的连续语音识别技术应运而生,该方法引入声学、语言等多层次信息,更符合人类思维内在的模式。本课题旨在突破传统模型的固有缺陷,研究基于分段条件随机场的连续语音识别技术,结合语音学知识及新型模型和信息融合等先进方法和手段,建立更符合人类思维认知方式的语音识别系统,使得系统识别率更高,在复杂环境下更具鲁棒性。在分段条件随机场整合模型方面,通过对模型目标函数进行改进,引入区分性机制来改善识别率,并最大限度减少对信息整合的条件限制。在特征表示方面,获取多元、多颗粒度的有效信息表示,为SCRF提供分类特征,具体为一是研究多种颗粒度的语音信息表示方法,包括长时性语音音位属性、音素边界、突变标识等及音素识别;二是研究能够更好刻画语音的时间变化模式且便于语义分类的点过程模型以及点过程模型信息的表示方法;三是研究说话人自适应信息表示,构造说话人、音子子空间,研究不同子空间和分层贝叶斯自适应算法;四是词格后处理及集外词处理处理,词格中含有丰富的语义信息,因此也是SCRF的信息重要来源之一;五是深度神经网络改进技术,将基于深度学习的方法作为有效信息进行表示,并对DNN模型结构进行改进,减少过拟合并且增强鲁棒性。本课题完备了连续语音识别领域的多元信息表示方案,建立了多信息整合方法理论,提升了系统的准确率和鲁棒性。研究团队发表高质量论文54余篇,包括IEEE Transaction、Speech Communication、Eurosip、自动化学报、电子与信息学报近20篇,及本领域最高水平的国际会议Interspeech和ASRU 3篇等,其中一名博士生正申报河南省优秀博士论文。通过本项目的研究,完成重要少数民族语言(蒙、维)语音资源库建设,数据总量达到百小时,可供训练与测试。申请国家专利2项,开发的软件系统在实际单位应用取得了较好效果,2014年获得省部级科技进步二等奖1项。部分理论成果正在撰写专著《现代连续语音识别技术》,预计2016年上半年出版。本项目培养了22名硕士生和4名博士研究生。在基金的资助下,本项目达到了预期研究目标,项目研究方法为语音识别系统实用化和性能提升提供了一些切实有效的理论和方法,也为相关领域的研究提供借鉴。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 85
  • 9
  • 0
  • 2
  • 1
期刊论文
相关项目
期刊论文 1 会议论文 13 获奖 2
期刊论文 32 会议论文 1
期刊论文 24 会议论文 15
屈丹的项目