东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

发音错误检测中基于多数据流的Tandem特征方法

ISSN号：1001-9081
期刊名称：《计算机应用》
时间：0
分类：TP391.42[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]清华大学电子工程系,北京100084, [2]清华信息科学与技术国家实验室(清华大学),北京100084, [3]中国科学院电子学研究所,北京100190, [4]传感技术国家重点实验室(中国科学院),北京100190, [5]中国科学院大学,北京100190
相关基金：国家自然科学基金资助项目（61370034,61273268,61005019,61105017）.

作者：袁桦[1,2], 蔡猛[1,2], 赵军红[3,4,5], 张卫强[1,2], 刘加[1,2]

关键词：发音错误检测, Tandem特征, 发音规则, 深度神经网络(DNN), 多层神经感知(MLP), mispronunciation detection, Tandem feature, phonological rule, Deep Neural Network （DNN） , Multi-Layer Perception （MLP）

中文摘要：

针对发音错误检测中标注的发音数据资源有限的情况,提出在Tandem系统框架下利用其他数据来提高特征的区分性.以中国人的英语发音为研究对象,选取了相对容易获取的无校正发音数据、母语普通话和母语英语作为辅助数据,实验结果表明,这几种数据都能够有效地提高系统性能,其中无校正数据表现出最好的性能.同时,比较了不同的扩展帧长,以多层神经感知（MLP）和深度神经网络（DNN）作为典型的浅层和深层神经网络,以及Tandem特征的不同结构对系统性能的影响.最后,多数据流融合的策略用于进一步提高系统性能,基于DNN的无校正发音数据流和母语英语数据流合并的Tandem特征取得了最好的性能,与基线系统相比,识别正确率提高了7.96％,错误类型诊断正确率提高了14.71％.

英文摘要：

To deal with the under-resourced labeled pronunciation data in mispronunciation detection, some other data were used to improve the discriminability of feature in the framework of Tandem system. Taking Chinese learning of English as object, unlabeled data, native Mandarin data and native English data which can be relatively easily accessed were selected as the assisted data. The experiments show that these types of data can effectively improve the performance of system, and the unlabeled data performs the best. And the effect to system performance was discussed with different length of frame context, the shallow and deep neural network typically represented by Multi-Layer Perception （MLP） and Deep Neural Network （DNN）, and different structure of Tandem feature. Finally the strategy of merging multiple data streams was used to further improve the system performance, and the best system performance was achieved by combining the DNN based unlabeled data stream and native English stream. Compared with the baseline system, the recognition accuracy is increased by 7.96%, and the diagnostic accuracy of mispronunciation type is increased by 14.71%.

同期刊论文项目

面向海量语音信息处理的垃圾过滤和数据选择方法研究

期刊论文 30 会议论文 21 专利 3

噪声和短语音条件下的说话人识别

期刊论文 9

多语言语音识别声学建模理论和容错识别新方法研究

期刊论文 8

基于分布式声传感器网络和量子优化学习的说话人分类标记研究

期刊论文 12 会议论文 11 著作 2

同项目期刊论文

Exploiting contextual information for prosodic event detection using auto-context

Language Recognition Based on Acoustic Diversified Phone Recognizers and Phonotactic Feature Fusion

基于音素解码的语种识别系统联合自适应算法研究

基于鉴别性i-vector局部距离保持映射的说话人识别

一种新的基于子空间的说话人自适应方法

RNN language model with word clustering and class-based output layer

基于鉴别性向量空间模型的语种识别

基于无监督迁移分量分析的语种识别

基于NIST评测的说话人分类及定位技术研究

基于MLER和GMM的语音音乐分类

大规模词表连续语音识别引擎紧致动态网络的构建

基于核函数的IVEC-SVM说话人识别系统研究

基于JSM和MLP改进发音错误检测的方法

基于TLS-NAP的文本无关说话人识别算法

Exploiting articulatory features for pitch accent detection

说话人识别中基于音素分类的数据选择方法研究

三洋摄像机调焦聚焦噪声抑制技术研究

一种联合语种识别的新型大词汇量连续语音识别算法

基于JSM和MLP改进发音错误检测的方法

一种基于空间声学特征的说话人分类算法研究

基于声学融合特征的说话人分类方法研究

基于空间声学特征的说话人分类算法

基于TLS-NAP的文本无关说话人识别算法

波前编码超分辨成像技术

环形线负载驱动变曲率反射镜技术

位相差异波前传感技术在大型空间光学相机中的应用

基于子带频谱质心特征的高效音频指纹检索

基于核函数的IVEC-SVM说话人识别系统研究

基于总体变化子空间自适应的i-vector说话人识别系统研究

基于JSM和MLP改进发音错误检测的方法

Exploiting articulatory features for pitch accent detection

基于核函数的IVEC-SVM说话人识别系统研究

基于总体变化子空间自适应的i-vector说话人识别系统研究

基于JSM和MLP改进发音错误检测的方法

Exploiting articulatory features for pitch accent detection

基于深度神经网络和Bottleneck特征的说话人识别系统

低资源条件下基于I-vector特征的LSTM递归神经网络语音识别系统

低资源语音识别若干关键技术研究进展

基于深度神经网络和Bottleneck特征的说话人识别系统

低资源条件下基于I-vector特征的LSTM递归神经网络语音识别系统

深度神经网络自适应中基于身份认证向量的归一化方法

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679