本项目研究基于分布式麦克风阵列的说话人定位与跟踪方法,它在多媒体通信、人机接口、机器人、军事等领域有广泛应用价值。主要研究内容为(1)应用最大似然等理论,研究分布式麦克风阵列的校准方法,有效地估计麦克风阵列的几何位置;(2)应用无导师聚类方法和矩阵理论中的盖氏(Gerschgorin)圆估计方法,构造语音信号源数的判决准则,进行说话人数目的估计;(3)应用随机集合理论和模糊K均值聚类方法,识别和选择能提供有效信息的最佳节点麦克风,以减少计算复杂度;(4)考虑到分布式麦克风阵列位置的估计误差,研究稳健的时延估计方法,并用总体最小二乘和最大似然理论,研究说话人定位方法;(5)考虑到说话人运动模型和分布式阵列的特点,用多传感器多目标跟踪中的数据融合算法,采用分布式非线性Kalman滤波和Bayes递推滤波技术,研究说话人跟踪方法;(6)建立基于分布式麦克风阵列的说话人定位与跟踪实时处理系统。
Distributed microphone array;Sound source localization;Speaker tracking;Distributed Kalman filtering;Distributed particle filtering
分布式麦克风阵列具有易于安装布置、对阵列拓扑结构限制少等优点,近年来已成为语音处理领域的研究热点,并在多媒体通信、人机交互、安全监控、机器人导航等领域有广阔应用前景。 本项目对基于分布式麦克风阵列的说话人定位与跟踪方法进行了深入研究,主要成果有(1)研究了基于分布式麦克风阵列的说话人定位方法,包括基于麦克风聚类和神经网络的声源定位方法、基于位置指纹和高斯混合递归的声源定位方法、基于支持向量机的双耳声源定位方法、基于小波变换和语音包络的时间延迟估计方法等;(2)研究了基于卡尔曼滤波的分布式麦克风阵列说话人跟踪方法,包括基于分布式卡尔曼滤波的说话人跟踪方法、基于分布式交互多模型-无轨迹卡尔曼滤波的说话人跟踪方法、基于分布式迭代扩展卡尔曼滤波的说话人跟踪方法;(3)研究了基于粒子滤波的分布式麦克风阵列说话人跟踪方法,包括基于分布式粒子滤波的说话人跟踪方法、基于总体相干场与分布式粒子滤波的说话人跟踪方法、基于分布式辅助粒子滤波的说话人跟踪方法、基于分布式边缘辅助粒子滤波的说话人跟踪方法、基于数值积分卡尔曼粒子滤波的说话人跟踪方法、非高斯噪声环境下基于分布式粒子滤波的说话人跟踪方法等;(4)研究了基于随机有限集理论的麦克风阵列说话人跟踪方法,包括基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法、基于中心差分卡尔曼-概率假设密度滤波的多目标跟踪方法、基于高斯混合概率假设密度滤波的主用户跟踪方法等;(5)研究了基于声能量衰减模型和时间延迟估计的分布式麦克风阵列校准方法;(6)建立了分布式麦克风阵列说话人定位与跟踪系统。