东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

说话人确认中以音素为中心的特征端因子分析

ISSN号：1003-0530
期刊名称：《信号处理》
时间：0
分类：TN912.34[电子电信—通信与信息系统;电子电信—信息与通信工程]
作者机构：中国科学技术大学语音及语言信息处理国家工程实验室,安徽合肥230027
相关基金：国家自然科学基金项目（61273264）;国家科技支撑计划（2014BAK15805）

关键词：特征端因子分析, 差异因子, 深度神经网络, 说话人确认, acoustic factor analysis, i-vector, deep neural network, speaker verification

中文摘要：

在说话人确认中,特征端因子分析（Acoustic Factor Analysis,AFA）利用MPPCA（Mixtures of Probabilistic Principal Component Analyzers,MPPCA）算法在通用背景模型（Universal Background Model,UBM）的每个高斯上分别对特征降维以去除语音特征中文本、信道和噪声等信息的干扰,获得增强的说话人信息并用于提升说话人确认的性能。但是通用背景模型属于无监督的聚类方法,其每个高斯成分物理意义不够明确,不能区分不同说话人发不同音素时的情况。为解决这一问题,本文利用语音识别中的声学模型深度神经网络（Deep Neural Network,DNN）取代传统的通用背景模型并结合特征端因子分析分别对不同音素上的语音特征进行降维提取出说话人信息,进而提取DNN i-vector用于说话人确认。在RSR2015数据库Part III上的实验结果表明该方法相对于基于UBM的特征端因子分析方法在男女测试集上等错误率（Equal Error Rate,EER）分别下降13.49%和22.43%。

英文摘要：

In speaker verification, Acoustic factor analysis uses MPPCA algorithm to derive a mixture dependent dimension- ality reduction of the acoustic feature in every single component of Universal Background Model, which can eliminate chan- nel mismatch and noise interference and use the enhanced speaker information to improve the performance of speaker verifi- cation. However, UBM is trained in an unsupervised method and each Ganssian has no defining acoustic meaning, which can＇ t distinguish between different speakers saying different types of phoneme. To address this, this paper replaced UBM with Deep Neural Network of ASR acoustic model in acoustic factor analysis and derived a phoneme dependent dimensional- ity reduction of the acoustic feature to extract speaker information which was used to extract the DNN i-vector for speaker verification. The experiment on RSR2015 PartIII showed that acoustic factor analysis based on the phoneme can achieve a valid reduction of 13.49% and 22. 43% at the EER compared to acoustic factor analysis based UBM when evaluated on male and female test set separately.

同期刊论文项目

语音信号声纹信息成分的深层表达

期刊论文 4

同项目期刊论文

基于深层置信网络的说话人信息提取方法

自由表述口语语音评测后验概率估计改进方法

深度语音信号与信息处理：研究进展与展望

期刊信息

《信号处理》
中国科技核心期刊

主管单位:中国科学技术协会
主办单位:中国电子学会
主编：谢维信
地址：北京鼓楼西大街41号
邮编：100009
邮箱：xhclfh@sohu.com
电话：010-64010656

国际标准刊号：ISSN：1003-0530
国内统一刊号：ISSN：11-2406/TN
邮发代号:80-531

获奖情况:
国家一级科技期刊

国内外数据库收录:
美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:10219