课题将围绕本重大研究计划的总体目标,根据本年度项目指南中的研究方向,开展行驶中无人驾驶车辆对车内外声音的自动检测、实时识别及理解方面的关键技术研究,为无人车的智能行为决策提供辅助的听觉信息。课题拟重点解决如下关键问题环境变化复杂情况下声音信号的有效拾取、噪声消除及声源定位;基于听觉认知的鲁棒声音特征提取及有效声音感知与环境状况理解;交通广播语音识别和信息抽取;并在此基础上构建行车环境下的听觉模型。通过课题的研究,拟提出一系列行车环境下普适的自动声音感知与理解的理论与方法;并借助无人车这一典型应用背景,探索特定场景和特定目标下听觉信息的认知机理。力争使研究成果达到国际先进水平,提升我国在视听觉信息处理领域的整体研究实力。
acoustics event detection;sound scene recognition;sound perception and understanding;microphone array;speech information extraction
本项目围绕重大研究计划的总体目标,按照研究计划书设定的研究内容,开展了无人车行车环境下车内外声音的自动检测、实时识别及理解方面的关键技术研究。为无人车的智能行为决策提供辅助的听觉信息。 在项目的实施过程中,不仅解决了计划书中所提出的关键问题,而且还在具体研究过程中扩展了相关的研究。在基于麦克风阵列的声源定位和信号分离方面,首先设计并制作了多通道麦克风阵列硬件设备;其次提出了基于变换域分析的声源定位算法;接着提出了基于隐马尔科夫随机场关联建模的信号分离方法。在基于麦克风阵列的噪声消除和信号增强方面,提出了基于深度神经网络后滤波的麦克风阵列噪声消除框架,能在消除噪声的同时,有效控制信号畸变。在基于耳蜗非线性与主动增益特性的鲁棒特征提取方面,提出了一种能有效仿真耳蜗非线性处理机制的声学特征提取方法,其鲁棒性明显优于传统的声学特征。在车辆周边及车内声学事件检测方面,首先提出了基于基频的声音分割方法;其次对基于高斯混合模型的建模方法进行了改进,提出了伪高斯混合模型方法;接着提出了异质混合模型方法,以适应实际应用中多种不同数据分布的建模问题。最后,提出了一种基于多尺度RBF核SVM的声学事件检测方法。在基于声音事件序列的场景识别方面,首先提出了基于低秩矩阵的特征表示方法和基于低秩张量的特征表示方法;其次提出了基于低秩支持向量机的音频场景识别方法;接着,提出了基于背景声的最小噪声统计量来识别音频场景的方法。在交通广播提示语音的识别与信息抽取方面,设计并实现了一个服务于无人车的交通广播语音识别与抽取系统。在无人车声音感知和理解系统构建方面,提出了一般化的无人车听觉能力模型和实现该听觉能力的技术框架。同时,构建了行车环境下的声音感知和理解原型系统,并在实际无人车平台上进行了测试,各项功能指标和性能指标达到要求。 项目组共发表或录用学术论文66篇,其中18篇进入SCI检索源,64篇进入EI检索源,申请专利11项,与多个国家的学者开展了学术交流与合作。培养博士研究生17名,硕士研究生20名。由2013年清华出版社出书一部。另一本专门讨论声学事件检测理论与方法的专著即将在2016年由科学出版社出版。