目前多数语音识别系统只适合于识别"干净"的语音,当存在背景噪声或训练和测试环境不同时,识别系统会出现性能急剧下降的现象,因此,抗噪语音识别系统的研究就具有重要意义。申请者前期研究工作表明,在非特定人、小词汇量、不同信噪比环境下,使用SVM进行语音识别比使用HMM、ANN具有更好的识别率和抗噪性。在此基础上,本项目通过进一步研究,提出适合语音识别应用的核函数以及混沌自适应非线性微分惯性权重微粒群优化核参数的方法;从理论上深入分析SVM具有的鲁棒性以及各种SVM的算法特性,提出适合噪音环境下语音识别的SVM新算法;使用改进MFCC特征和改进ZCPA前端特征,对上述工作建立的优化SVM语音识别模型进行对比实验,给出特征提取和识别部分的最佳组合,完成信噪比降低至10dB、5dB及0dB的实验及把识别词汇量逐步扩大到500词以及连接数字语音的识别实验;最终建立面向语音识别的抗噪SVM模型。
Rrobust Speech Recognition;Support Vector Machine;Kernel Function;Parameter Optimization;Speech Feature
目前多数语音识别系统只适合于识别“干净”的语音,当存在背景噪声或训练和测试环境不同时,识别系统会出现性能急剧下降的现象,因此,抗噪语音识别系统的研究就具有重要意义。申请者前期研究工作表明,在非特定人、小词汇量、不同信噪比环境下,使用SVM进行语音识别比使用HMM、ANN具有更好的识别率和抗噪性。在此基础上,本项目按照课题计划进行,研究了较大词汇量、低信噪比情况下建立SVM语音识别模型以改善识别系统性能的相关问题。主要从语音数据库、语音特征提取、预选取、多类分类方法、核函数、参数优化及支持向量机训练这几个相互关联的方面开展了研究,所做主要工作包括 ①研究了若干支持向量机的预选取、多类分类方法。其中预选取方法比未预选取减少了平均46.13个百分点的时间,纠错输出编码比其他多类分类方法的识别率平均高4个百分点,是最好的支持向量机多类分类方法。重点研究了支持向量机核函数的选择、构造,研究了超核函数、小波核函数、切比雪夫核函数、ORF核函数等内容,这些核函数在不同的语音实验中均有成效。实验表明,在TIDigits语音库上,ORF核函数比RBF核函数识别率高9.4个百分点。针对核函数的参数寻优,研究了小生境并行人工鱼群算法、人工蜂群等算法,实验表明,小生境并行人工鱼群算法比未寻优前识别率提高了2.8个百分点。 ②为改善语音识别系统的抗噪性,从理论上深入分析了支持向量机具有的鲁棒性以及各种支持向量机的算法特性,提出了模糊Bv-SVM算法,识别结果平均比默认参数的v-SVM高31个百分点,证明了它是一种新的具有更好鲁棒性的语音识别算法。 ③订购了国际上公认的语音识别库TIDigits,建立了500词汉语孤立词语音库,针对各种不同的语音数据库和低信噪比的情况,验证了支持向量机的语音识别模型均可成功适用。前期工作表明语音信号特征提取的方法也直接影响后端识别结果,其中FWDZCPA的效果较优,尤其是在低信噪比0dB的情况下,识别率仍能高于90%,体现了很强的抗噪性。 ④此外还研究了一些相关的工作,例如基于人耳听觉模型的情感语音识别特征,非特定人鲁棒性语音识别中前端滤波器,面向语音情感计算的数据库的构建与应用研究,人工蜂群算法的收敛性分析等。本项目的研究成果为SVM在抗噪语音识别中的应用提供了理论基础,对语音识别系统的实用化具有重要意义。