语音声源定位技术近年来已成为国内外研究的热点。本项目将阵列信号处理和人耳空间听觉原理相结合来研究基于小型麦克风阵列的声源定位方法。在已有的相位变换加权的可控响应功率算法基础上,充分利用声场环境的先验知识提高其鲁棒性,并根据算法的特点设计麦克风阵列以减少计算量,提高算法的实时性。进一步将MUSIC算法与相位变换加权相结合,实现混响环境下的多声源定位。本项目还将研究基于空间听觉原理的声源定位方法,将根据人的双耳听觉感知模型,从双耳声信号中提取声源的空间方位特征线索,并建立这些线索与目标声源方位的映射关系,从而实现声源定位。同时,我们将研究基于机器人特定头型的与头相关传递函数的声源定位方法。本项目的研究成果可广泛用于视频会议、免提通信、语音识别、说话人识别、机器人听觉等领域。
sound source localization;microphone array;steered response power;time delay estimation;binaural localization cues
本项目主要研究基于麦克风阵列信号处理和基于人的空间听觉定位机理的声源定位的关键技术。为降低相位变换加权的可控响应功率(SRP-PHATSteered Response Power-Phase Transform)定位算法的计算量,满足实时要求,我们提出了三种实时有效的改进算法设计了一种正交线阵,采用该线阵实现SRP-PHAT算法,可以大幅度减少计算量;利用空间中相邻区域的时延差矢量很近似这一特点,采用了基于聚类搜索的加速SRP-PHAT定位算法;受小型麦克风阵列的空间功率谱启发,提出了基于三线快速搜索的SRP-PHAT算法。为提高SRP-PHAT定位算法在低信噪比环境中的定位精度,我们引入了两种改进算法基于主特征向量的改进SRP声源定位算法,和基于AC(Agglomerative Clustering)聚类的小型均匀圆阵声源算法。为增强相位变换加权的广义互相关法对噪声和混响的鲁棒性,我们提出两种改进的时延估计算法基于自适应频率选择的鲁棒时延估计算法,和结合激励信息和PHAT加权的时延估计方法。为了在恶劣环境中也能实现声源定位,提出了基于鉴别互相关函数的声源定位算法。在有多个说话人的情况下,定位算法的性能受到声源之间的相互干扰而急剧下降。我们利用语音信号在时-频域的稀疏特性,引入了两种多声源定位算法基于子带SRP的多声源定位算法,和基于相位差复指数的两个麦克风多声源定位算法。我们模拟人耳听觉系统的声信号处理机制,给出了三种算法有效优化了现有的声源定位系统为克服双耳定位线索对于声源频率的限制,采用了多子带联合定位算法;为解决“前后混淆”现象,提出了基于耳间强度差和耳间时间差联合判决的双耳声源定位的模型;为提高双耳声源定位算法对噪声的鲁棒性,引入了一种基于子带信噪比估计的双耳声信号声源定位方法。利用离线测量得到的特定头型与头相关脉冲响应,给出了基于双耳互相关函数的定位算法。我们提出了一种改进的结合静音检测的声源跟踪算法,有效地减少了静音期间的跟踪误差。我们结合常规可控波束形成(SBFSteered Beamformer)和SRP-PHAT两种定位函数的优点,给出了一种改进算法,可以明显改善在低信噪比、强混响环境中的跟踪性能。