耳语音是一种特殊而常见的发音方式,本项目拟研究耳语发音方式下说话人识别的理论和实现方法。这方面的研究不仅对听觉感知的深入探索有理论意义,而且在通信、公共安全、医学等领域有实际应用前景。本项目根据耳语发音特点,提出用联合因子分析模型进行文本无关耳语音说话人识别,模型中包含说话人和信道环境两类因子前者反映说话人每次发音因说话场合、个人情绪状态等变化引起的语音变异;后者反映耳语音受环境或传输信道的影响。项目研究内容包括联合因子模型建立与超参数集估计、耳语话者个性特征表达。由于耳语音没有反映个人特征的基音频率且频谱平坦,因此提出建立二维波导网格声道模型来有效表达耳语状态下说话人的自身发音特征,并由该模型导出反映说话人特点的语音特征参数。本研究拟建立一个耳语方式下话者识别的实验系统,并进行测试比较。本研究的理论和实现对正常语音下稳健说话人识别研究也有参考意义。
Whispered speaker recognition;WaveguideMesh vocaltract model;Joint factor analysis;Subspace estimation;Whispered speech emotion state
有关耳语音说话人识别的研究是一个全新的课题。耳语音说话人识别与正常语音说话人识别相比的主要难点可归纳为以下几个方面(1)耳语音特征表达问题。(2)易受噪声及信道环境因素影响问题。(3)易受说话人心理因素、情绪及发音状态影响问题。本项目研究了耳语音发音方式下说话人识别的理论和实现方法。主要研究了以下几点内容(1)建立二维波导网格声道模型表达耳语状态下说话人的自身发音特征,并由该模型导出反映说话人特点的语音特征参数;(2)分析耳语音情感特征及其对耳语音说话人识别的影响;(3)分析说话人因说话场合、个人情绪状态等变化引起的语音变异,及耳语音说话人状态因子;(4)分析耳语音受环境或传输信道的影响,即信道环境因子;(5)分析清辅音特征及其在耳语音说话人识别中的作用;(6)建立完整的联合因子分析模型进行文本无关耳语音说话人识别。本项目建立了一个耳语方式下话者识别的实验系统,并进行测试比较。实验结果显示,采用联合因子分析(JFA)的方法将耳语音的特征分解为说话人空间、信道空间和残差空间三个部分,并形成由说话人超向量和信道超向量等组成超向量,JFA的方法可提高不匹配信道下耳语说话人的识别率;在短时语音测试时用混合补偿法可提升约3%的识别率;正弦模型及人耳听觉模型的全局谱参数可将耳语说话人状态因子分类系统的准确率提高至90%。用正常语音清辅音训练、耳语音清辅音识别可改善说话人识别率。使用波散射模型(Wave Scattering)和时域有限差分算法(Finite Difference Time Domain)建立二维模型,进而导出特征参数,改善系统性能。这方面的研究不仅对听觉感知的深入探索有理论意义,而且在通信、公共安全、医学等领域有实际应用前景。本研究的理论和实现对正常语音下稳健说话人识别研究也有参考意义。