位置:立项数据库 > 立项详情页
复杂声学环境下的说话人语音信息的抽取、分离和识别
  • 项目名称:复杂声学环境下的说话人语音信息的抽取、分离和识别
  • 项目类别:重大研究计划
  • 批准号:90920002
  • 申请代码:F010406
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:王岚
  • 负责人职称:研究员
  • 依托单位:中国科学院深圳先进技术研究院
  • 批准年度:2009
中文摘要:

本项目是针对复杂声学环境下的说话人语音信息处理展开研究。我们将分析典型的复杂声学环境- - 驾驶环境下非恒定噪声源的特性,从人类听觉系统对非恒定噪声源的压制机理出发,探索面向识别的语音信息与非恒定噪声的提取和分离方法。我们首先进行驾驶环境下的中文连续语音数据的采集和数据分析,建立一个可推广的基于多项式回归与插值 HMM 的声学模型,用于非恒定噪声下的鲁棒性自动语音识别。我们将探索不同的数学方法以对变化噪声环境下的相匹配的声学模型参数进行动态,实时的运算。我们将探索基于特征与模型空间的参数多项式回归于插值方法,使得计算复杂度和识别性能有合理的平衡。同时,该方法将与自适应训练和区别性训练整合,使之可以应用于大规模连续语音识别的系统框架中。因此,本项目的研究内容不仅具有认知理论研究基础,还可以应用在实际系统中。

结论摘要:

针对复杂声学环境下的说话人语音信息处理,我们首先分析了典型的复杂声学环境——驾驶环境下非恒定噪声源的特性,从人类听觉系统对非恒定噪声源的压制机理出发,探索面向识别的语音信息与非恒定噪声的提取和分离方法。驾驶环境下的噪声来源多种多样,特征也各不相同,但是我们观察到驾驶环境下的噪声并不具有平稳特性,噪声强度会不断变化。现有的鲁棒语音识别系统仅考虑稳定强度的噪声,对这种实际驾驶环境的声学情况,难以获得预期的性能改进。通过对驾驶环境下的中文连续语音数据的采集和数据分析,我们建立了一个可推广的基于多项式回归与插值 HMM 的声学模型,用于非恒定噪声下的鲁棒性自动语音识别。这种声学模型可以针对非平稳噪声建立多项式参数估计,当测试环境具有与训练环境不同的噪声强度时,该模型可以根据多项式轨迹估计最优的模型参数,从而提高噪声下的识别精度,增强系统的鲁棒性。我们探索了不同的数学方法对变化噪声环境下的相匹配的声学模型参数进行动态、实时的运算,特别是提出了基于特征与模型空间(mean, variance and transformation space)的参数多项式回归于插值方法,使得计算复杂度和识别性有合理的平衡。同时,该方法将与结构化模型整合,使之可以应用于大规模连续语音识别的系统框架中。本项目提出的方法在自行采集建立的中文车载语音数据库以及英文标准数据库(Aurora2)上进行验证,实验结果证明,我们所提出的声学模型建立方法,相对于传统的VP-HMM方法可以大大降低参数集合的数量,而保证识别率不降低。同时,这种模型的可推广性可以综合利用均值、方差以及线性变换形式的多项式回归和差值,所获得的识别率相对基线系统有显著提升。此外,与说话人自适应方法共同构造的结构化模型,仍然可以有效提升识别系统性能。从而,充分验证了本项目所研究算法对抗非平稳噪声的有效性、可扩展性和紧致性。这种声学模型建模方法的研究,可以将所建立的鲁棒性语音识别系统应用到车载环境下的语音导航、语音交互等,具有广泛的应用前景。本项目的研究共发表SCI/EI检索论文13篇,授权发明专利两个,项目负责人是国际会议ISCSLP2012组委会成员。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 6
  • 9
  • 0
  • 0
  • 0
相关项目
王岚的项目