非平稳噪声抑制是语音增强研究的一个难点问题, 本项目针对非平稳噪声下的语音出现概率估计以及噪声自适应估计两个关键点展开研究, 提出了如下新的研究课题: 首先把在盲信号分离中常用的语音信号时频分布稀疏性特点引入语音/非语音检测之中, 避免了基于浊音谐波结构的检测法对频域分辨率要求过高的问题; 其次在观测信号能量激增的时候, 综合稀疏性等特征推测语音出现概率, 降低噪声自适应估计的延迟; 再次根据非平稳噪声自适应估计来修正先验信噪比估计很低时语音出现概率不能逼近0的问题; 最后本项目还将盲信号分离中的二元时频掩模与语音出现概率关联起来, 并将非平稳噪声下的语音出现概率引入阵列形式下的语音增强算法推导中. 初步的研究结果表明稀疏性特性在语音/非语音检测中有很大的潜力, 从而将对上述新的研究课题产生推动作用.
Speech enhancement;Sparseness;Noise estimation;Microphone array;Blind source separation
本课题围绕语音信号的时频稀疏性及其在非平稳噪声抑制中的应用,重点研究了 (1)非平稳噪声下的语音出现概率估计及噪声抑制——表明语音的幅度谱分布是一种典型的稀疏型分布,可用拉普拉斯分布来描述;提出了综合时频域最小值跟踪的语音出现概率估计方法,以及非平稳噪声条件下的语音增强方法,在非平稳噪声和线谱噪声混合干扰下,能取得明显的效果; (2)基于语音稀疏性的时频二元掩膜估计与混叠语音分离——研究了以空间特征的GMM模型为基础的非盲源分离;提出了一种基于语音信号时频分布稀疏性的半盲双麦克风噪声抑制方法,通过在线模型适应使分离效果逼近非盲分离;提出了一种基于目标声源方位已知的双麦克风噪声抑制方法,同样逼近非盲分离的效果; (3)基于语音稀疏性的麦克风阵列技术——针对手机的双麦克风的噪声抑制问题,提出了一种基于功率级比的快速手机双麦克风降噪算法,不仅比同类方法效果好,而且算法效率更高;此外还针对麦克风灵敏度差异对功率级比的影响,提出了基于双麦克风后验信噪比差异的双通道MVDR方法,该方法根据后验信噪比差异估计语音出现概率,并以此得到的噪声自相关矩阵估计,最后使用MVDR滤波器对双通道同时滤波;针对等边三角形阵360°范围拾音问题,提出了空间分块估计声源方位和基于模型在线适应的盲源分离方法,分离效果与非盲分离的效果相似;针对有部分参考信号的多稀疏源混叠时的分离问题,提出了基于多通道频域自适应滤波的多稀疏源分离方法,利用已知参考信号进行自适应噪声抵消技术,并基于稀疏性进行欠定混叠信号的分离; (4)语音增强和噪声抑制技术相关应用——在噪声干扰下的说话人识别方面,提出了双麦克风语音增强和杂混模型训练相结合的顽健说话人确认方法;在音频分类问题方面,基于语音信号的稀疏性提出了两个新的与基频有关的特征,结合SVM二叉分类树进行多种音频的分类;在双耳信号研究方面,基于标准中国头模BHead210测量了头相关传输函数库,研究对比了快速解卷和自适应滤波器两种方法在串声消除中的优缺点,提出了一种实时的移动声源声像渲染方法。在研究过程中,我们尽可能的在真实环境中测录数据、验证方法,确保研究工作有的放矢,提出的方法切实有效。