人不可能两次踏进同一条河流,同样,人不可能两次发出同样的语音,此即声纹识别的时间漂移现象,该现象极大地制约了声纹识别技术的实用化。要真正发挥声纹识别技术在社会信息安全和自然人机交互等国家战略至高领域中所起的重要作用,影响其稳定性的时间漂移问题亟待解决。旨在为研发漂移鲁棒性的声纹识别技术提供核心算法支撑,并在仿人听感信息处理领域作前沿探索,本项目拟沿两条途径展开工作首先构建声纹表征模型,将实验语音学知识引入声纹统计建模,对现有的多种语音特征进行合理表达与整合。研究声纹漂移现象的机器学习与理解,利用聚类和流形学习等机器学习方法实现个体声纹漂移现象的可视化从而作机制性建模,并找寻不同个体间声纹漂移机制的迁移学习策略。其次借鉴人类的感知机理,初步探索声纹的漂移不变性表达机制及其模型实现。我们还将通过开发漂移鲁棒性的声纹识别原型系统来验证所得表征模型与漂移鲁棒性实现方法的正确与有效性。
speaker recognition;intra-speaker variability;Gassian Mixture Model;emotion variability;Deformation Compensation
由于发音过程的不稳定性,人不可能两次发出同样的语音,此即声纹识别的漂移现象,该现象极大地制约了声纹识别技术的实用化。本项目从时间和情感两个维度研究影响声纹识别稳定性的漂移问题,为研发漂移鲁棒性的声纹识别技术提供核心算法支撑,并在仿人听感信息处理领域作前沿探索,本项目开展以下五方面工作 1、声纹时间漂移现象考察。通过对6位说话人(4男2女)连续3年采集的语音数据进行分析,发现随着时间的推移,3个月以上识别率有明显下降,声纹时间漂移现象存在,并体现在语音基频范围明显的波动与共振峰的变化。 2、声纹情感漂移现象的机器学习与理解。利用聚类和流形学习等机器学习方法对个体声纹数据进行可视化,发现声纹情感漂移的“音素相关现象”,即同一说话人发生相同情感变化时其相同音素发音的变化趋势一致;两个说话人中性和情感发音下的相同音素类模型之间的距离存在强相关性,中性和情感状态下的说话人模型的对应GMM分量之间距离的远近关系保持基本不变,中性和情感模型的GMM分量的“邻居”基本类似,即“邻居相似现象”。 3、提出基于形变补偿的声纹识别技术框架(DC)。首先通过形变测技术检测漂移语音的形变程度计算形变因子,然后在训练与识别两个阶段分别在模型层与特征层对漂移所引起的语音变化进行补偿,最终提高声纹识别技术对语音漂移的鲁棒性。训练阶段采用变形生成技术对声纹模型做拓展修整;识别阶段可选择采用特征规整技术对声纹特征进行规范化处理。 4、研究基于形变补偿的漂移鲁棒性的声纹识别算法。我们提出并研究了4种算法基于基频映射的情感拓展的声纹表征模型建模方法、基于FUZZY SVM的失配检测算法、基于“邻居相似现象”的情感拓展的声纹表征模型建模方法、基于EFA规整特征的情感补偿算法。基于自行采集的MASC情感语音库,以上算法相对于GMM-UBM算法取得了2-10个点的识别性能提升。 5、声纹识别的人机性能对比在MASC库上进行声纹识别的人机性能对比试验,将人耳听辨与变形补偿后的声纹识别算法进行结果对比,得到的结论是机器识别性能远优于对于单人听辨的性能;语音情感变化对机器性能造成的影响远远大于对人耳产生的影响;多人听辨的结果融合远高于单人的结果,甚至超过机器识别性能。 项目提交发明专利2项,获准授权发明专利4项。在模式识别与语音处理的国际国内学术会议与国内重要期刊上发表学术论文10篇