本项目结合语种识别和说话人识别的具体应用,针对海量语音数据垃圾过滤和数据选择问题进行创新研究,这既是目前国际上重要的研究热点,也是语音信息处理系统推向实用化的核心技术。本项目主要包括8个方面的研究内容(1)结合信号处理和统计模式识别方法,研究稳健的垃圾数据的过滤技术。(2)针对不同信道情况,研究高效的噪声消除算法。(3)研究复杂信道条件下稳健的端点检测处理技术。(4)结合因子分析技术研究说话人分割和聚类算法。(5)结合先验知识研究语种分割和聚类算法。(6)研究垃圾数据干扰说话人识别的机理,从理论上探索说话人识别依赖严重预处理的根源。(7)研究不同类型语音对说话人识别的影响,对说话人识别的数据选择提供理论指导。(8)研究数据选择算法,去除大量重复的和无代表性的数据。通过以上研究成果,大大提高复杂环境和实际应用条件下语种识别和说话人识别准确率和稳健性。该研究具有重大的理论意义和应用价值。
rubbish filtering;data selection;massive data;language recognition;speaker recognition
本项目结合语种识别和说话人识别的具体应用,针对海量语音数据垃圾过滤和数据选择问题进行创新研究,探究前端不同类型数据对后端特征提取和模型训练造成影响的本质,完善各种数据预处理算法的性能,提高复杂信道和实际应用条件下语种识别和说话人识别系统的识别率和稳健性。整个研究按计划进行,按质按量地完成了本项目的研究工作。研究中获得多项有价值的成果(1)研究稳健的垃圾数据的过滤技术,结合信号处理和统计模式识别方法,构建了一种高效的垃圾过滤系统,可快速准确过滤电话中的拨号音、提示音、传真、彩铃音乐等垃圾信号。(2)研究高效的噪声消除算法,对比了维纳滤波和Mel域维纳滤波,结果表明Mel域维纳滤波在噪声条件下可以提高说话人识别的性能。(3)研究复杂信道条件下稳健的端点检测处理技术,提出一种基于交叉熵顺序统计滤波的语音端点检测算法,提高了端点检测的稳健性。(4)研究说话人分割和聚类算法,提出一种基于K均值和因子分析的说话人分割聚类算法,改善了说话人分割聚类的性能。 (5)结合先验知识研究语种分割和聚类算法,提出一种联合语种识别的新型连续语音识别算法,可以在语音识别的同时高效地进行语种的分割和识别。(6)研究垃圾数据干扰说话人识别的机理,发现了语音在每个高斯分量上呈现一种“随机”分布,而噪声却集中在少数的高斯分量上,基本摸清了噪声影响说话人识别的本质,为后续研究奠定了基础。(7)研究不同类型语音对说话人识别的影响,对辅音进行筛选,去除无益于说话人识别的干扰辅音音素,去除静音干扰音,从而实现对语音的择优选取,提高了说话人识别的性能。(8)研究数据选择算法,提出了一种两阶段的音位特征选择算法,提高了语种识别的性能。通过以上研究成果,大大提高复杂环境和实际应用条件下语种识别和说话人识别准确率和稳健性。 采用本项目成果,构建了面向海量数据的垃圾过滤系统一套,该系统2013年参加国内某单位的招标评测,电话语音垃圾过滤准确率达99.67%,在四家国内知名单位中排名第一。采用本项目成果,构建说话人识别系统,2012年参加NIST说话人评测,在全世界58家参赛单位中,带噪电话语音核心测试排名第五。 在本项目研究过程中,发表或录用期刊论文24篇(其中SCI论文7篇)、会议论文21篇、书籍章节1篇,申请国家发明专利3项,培养博士研究生9名,硕士研究生4名。各项指标超过项目计划要求。