电子变调操作是音频领域中用于改变人声同时保持听觉自然性的常用操作。利用这种操作进行伪装可以轻易地隐藏真实说话人的身份,为说话人识别取证的工作带来极大困扰。目前,针对这一具有紧迫性的挑战仍没有相关的研究报道。本项目主要研究对电子变调伪装鲁棒的说话人识别取证技术,使真正说话人"无所遁形"。具体研究内容包括文本相关的说话人变调伪装识别取证、文本无关的说话人变调伪装识别取证、音频变调取证和基于手机变调的语音取证和还原。通过本项目的研究,能够为电子变调伪装后的说话人身份识别取证和音频变调取证提供理论及技术支持,解决变调伪装所带来的危害公共安全的问题。
Electronic transformation;forensics;speaker recognition;disguise;security
电子变调操作是音频领域中用于改变人声同时保持听觉自然性的常用操作。利用这种操作进行伪装可以轻易地隐藏真实说话人的身份,为说话人识别取证的工作带来极大困扰。本项目研究对电子变调伪装鲁棒的说话人识别取证技术,使真正说话人“无所遁形”。具体研究内容、重要结果及关键数据如下一、变调伪装说话人识别取证1. 提出了一种利用基频估计变调参数的算法,该算法使用了特殊的中值滤波算法令估计结果更加准确。2. 提出了一种改进型的MFCC提取算法,该算法使用基于频域线性伸缩的补偿方法。利用该算法及估计的变调参数,可以从变调语音中直接提取出接近原始语音的MFCC系数;该算法避免了直接对变换语音进行反变换造成的频谱成分大量消失从而影响还原效果的缺点。3. 将以上算法整合到基于GMM-UBM的说话人识别系统中。实验考察多种实用软件及流行算法。结果表明这些变调方法会破坏说话人识别系统的性能,而我们所提的方法则令等错误率下降到5%左右,能满足很多识别应用场合。二、变调检测取证。提出了一种以MFCC统计量为语音特征的变调语音检测算法。该算法利用SVM方法训练得到区分正常语音和变调语音的分类器,并通过大量的实验来分析和评价了这种算法的检测性能。具体工作包括1. 重点分析了语音变调对不同的MFCC统计量的影响,并最终选择了MFCC的均值和相关系数作为语音信号的特征,用于变调检测。2. 考察了多种主流变调方法,以其中某一种作为训练的变调方法,并测试全部四种变调方法。在三个语音数据库中进行了测试。实验表明,测试的变调方法与训练所用方法相同时,检测率可以达到99%以上。测试与训练用了不同的变调方法,检测率依然保持在95%以上。3. 对不同变调方法的12个变调系数的语音进行了测试,发现变调系数越大,检测的成功率越高。4. 交叉语音数据库的检测。实验结果表明,变调语音的检测率能保持在90%以上。5. 到在实际中语音信号的传输往往要经过压缩,压缩格式的语音的检测是很有必要的。实验结果表明,MP3变调语音的识别率在92%以上,说明所提算法对于MP3压缩有着很好的鲁棒性。三、手机变调取证。1、已建立手机变调语料库;2、已有算法估计手机的内置变调参数;3、已开发出界面友好的实用程序。通过本项目的研究,能够为电子变调伪装后的说话人身份识别取证和音频变调取证提供理论及技术支持,解决变调伪装所带来的危害公共安全