复杂声学场景下的语音分离、内容分析与理解是目前信息处理领域前沿性和基础性的研究课题,其中一些科学问题值得探索,涉及的核心理论和技术需要创新。本项目基于听觉和认知机理,研究特定场景下的多人多方对话语音处理与理解的理论与方法,包括多源混响场景下的语音分析方法与理论;声学多变条件下的声纹、语音识别的鲁棒性建模;多人多方对话环境下的语言理解与意图分析。将在关键技术上有所突破和创新,其内容有听觉抗噪声机理、单通道和多通道的语音检测与提取、说话人分割聚类和序贯分割聚类、角色与行为分析、多人多方对话情况下的说话人跟踪、多说话人的话音分离、说话者识别、语音识别和内容理解、多模语义信息融合的意图理解模型等。本项目将实现两个原型系统,一个多人多方音频库检索系统,一个汽车语音辅助控制系统。
auditory perception;speech signal analysis;speech recognition;speaker recognition;speech understanding and retrieval
本项目主要研究了特定场景下的多人多方对话语音处理与理解的理论与方法,包括多源混响场景下的语音分析方法与理论;声学多变条件下的声纹、语音识别的鲁棒性建模;多人多方对话环境下的语言理解与意图分析。主要创新点包括 (1) 在多源混响场景下的语音分析方法与理论方面,围绕听感知激励,双耳听觉机理,含噪语音可懂度,语音增强对可懂度的影响,复杂声学环境下的语音增强、声源定位和端点检测,多通道声音解码等开展了深入分析和探索,取得了一系列研究进展。这些为语音处理提供了理论和方法上的指导。(2) 在语音识别方面,对抗噪特征、发音特征、声学建模、解码和关键词识别进行了研究。在说话人识别方面,针对声学多变条件下的声纹鲁棒性建模和复杂信道环境下的说话人识别的特征提取进行了研究。结果表明,语音识别和说话人识别的性能和效率都有显著改进。(3) 在语言理解与意图分析方面,提出了一种基于N-Best音节格的关键概念抽取方法和一种多源信息置信度加权叠加的信息融合方法,实现了基于多模态信息融合的语音理解。在对话管理建模方面,采用了SCXML来描述对话流程,并进行了基于POMDP的统计建模的研究。在本项目的支持下,取得了一系列成果。包括培养研究生44名,其中博士31名、 硕士13名;发表论文147篇其中SCI索引34篇,EI索引94篇;申请专利32项,授权30项。有关成果获省部一等奖三项,三等奖一项。在本项目的执行过程中,实现了两个原型系统,即语音交互系统和音频检索系统。基于这两个原型系统,在实际应用中进行了推广。通过与国内外企业(如互联网龙头企业百度、腾讯和阿里巴巴等)的合作,在市场上得到规模应用。同时,还在多个国家级工程项目中得到实际应用并发挥了重要作用。