东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于稀疏神经网络的说话人分割

ISSN号：0254-0037
期刊名称：《北京工业大学学报》
时间：0
分类：TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
作者机构：[1]北京工业大学电子信息与控制工程学院,北京100124, [2]江苏师范大学物理与电子工程学院,江苏徐州221009
相关基金：国家自然科学基金资助项目（61471014）

关键词：稀疏神经网络, 说话人分割, 说话人因子, sparse neural network, speaker segmentation, speaker factor

中文摘要：

提出一种基于稀疏神经网络的说话人分割方法,利用稀疏的单隐层神经网络提取语音的超矢量特征中说话人因子特征,然后通过K均值聚类得到每帧语音的标号来分割不同说话人,在稀疏网络的训练过程中引入了dropout技术以克服过拟合问题.在TIMIT语音数据库构成的多说话人语音数据上的实验结果表明：通过增加稀疏网络中隐层节点的个数可以提高说话人分割的效果,与贝叶斯信息准则（Bayesian information criterion,BIC）方法和稀疏自编码网络方法相比,所提基于稀疏神经网络的说话人分割方法的性能有明显提高.

英文摘要：

A method of speaker segmentation based on sparse neural network is presented.The speaker factor feature is extracted using the sparse neural network of one hidden layer from the super-vector feature of speech signals,then the label of every speech frame obtained by K-means clustering is used to segment different speakers,and the problem of over-fitting is tackled by the dropout technology in the training process of sparse network.The performance evaluation on the multi-speaker audio stream corpus generated from the TIMIT databases shows that the performance of speaker segmentation is improved by increasing the number of sparse network＇s hidden nodes,and the proposed speaker segmentation algorithm based on the sparse neural network performs better than the Bayesian information criterion（BIC） method and the sparse auto-encoder method.

同期刊论文项目

自回归维纳滤波语音增强方法研究

期刊论文 5

同项目期刊论文

基于最小控制GARCH模型的噪声估计算法

基于局部最小二乘支持向量机的音频频带扩展方法

基于回声状态网络的音频频带扩展方法

能量匹配的MFS-HMM语音增强方法

期刊信息

《北京工业大学学报》
中国科技核心期刊

主管单位:北京市教委
主办单位:北京工业大学
主编：卢振洋
地址：北京市朝阳区平乐园100号
邮编：100124
邮箱：xuebao@bjut.edu.cn
电话：010-67392535

国际标准刊号：ISSN：0254-0037
国内统一刊号：ISSN：11-2286/T
邮发代号:2-86

获奖情况:
中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:11924