东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于稀疏组LASSO约束的本征音子说话人自适应

ISSN号：1000-436X
期刊名称：通信学报
时间：2015.9
页码：47-54
分类：TN912.34[电子电信—通信与信息系统;电子电信—信息与通信工程]
作者机构：[1]信息工程大学信息系统工程学院,河南郑州450000
相关基金：国家自然科学基金资助项目（61175017,61302107,61403415）
相关项目：基于分段条件随机场的连续语音识别技术

作者：屈丹|张文林|

关键词：说话人自适应, 本征音子, 组稀疏约束, 稀疏组LASSO约束, 近点梯度法, speaker adaptation, eigenphone, group sparse constraint, sparse group LASSO constraint, proximal gradient method

中文摘要：

本征音子说话人自适应方法在自适应数据量不足时会出现严重的过拟合现象,提出了一种基于稀疏组LASSO约束的本征音子说话人自适应算法。首先给出隐马尔可夫—高斯混合模型下本征音子说话人自适应的基本原理;然后将稀疏组LASSO正则化引入到本征音子说话人自适应,通过调整权重因子控制模型的复杂度,并通过一种加速近点梯度的数学优化算法来实现;最后将稀疏组LASSO约束的自适应算法与当前多种正则化约束的自适应方法进行比较。汉语连续语音识别的说话人自适应实验表明,引入稀疏组LASSO约束后,本征音子说话人自适应方法的性能得到了明显提高,且稀疏组LASSO约束方法优于l1、l2和弹性网正则化方法。

英文摘要：

Original eigenphone speaker adaptation method performed well when the amount of adaptation data was sufficient. However, it suffered from server overfitting when insufficient amount of adaptation data was provided. A sparse group LASSO（SGL） constraint eigenphone speaker adaptation method was proposed. Firstly, the principle of eigenphone speaker adaptation was introduced in case of hidden Markov model-Gaussian mixture model（HMM-GMM） based speech recognition system. Then, a sparse group LASSO was applied to estimation of the eigenphone matrix. The weight of the SGL norm was adjusted to control the complexity of the adaptation model. Finally, an accelerated proximal gradient method was adopted to solve the mathematic optimization. The method was compared with up-to-date norm algorithms. Experiments on an mandarin Chinese continuous speech recognition task show that, the performance of the SGL constraint eigenphone method can improve remarkably the performance of the system than original eigenphone method, and is also superior to l1-norm, l2-norm and elastic net constraint methods.

同期刊论文项目

基于声学空间非线性流形结构的低资源语音识别

期刊论文 14

基于分段条件随机场的连续语音识别技术

期刊论文 85 会议论文 9 获奖 2 著作 1

基于特征加密的抗压缩编码语音加密技术研究

期刊论文 13

同项目期刊论文

基于本征音子说话人子空间的说话人自适应算法

特征空间本征音说话人自适应

一种基于流处理框架的可重构分簇式分组密码处理结构模型

Grain-128序列密码的能量分析攻击

采用HDPHMM符号化器的语音查询样例检测方法

借助音频数据的发音字典新词学习方法

一种新型的类语音调制方法

基于地址加扰的嵌入式系统安全防护研究

可重构密码流处理器片外流访存系统的设计

一种基于遗传算法的类语音调制方法

基于互补子词单元词图融合的集外词识别

基于深层神经网络的多特征关联声学建模方法

基于音位属性检测的PSPL 改进方法

汉语音节混淆网络的生成与重打分算法研究

基于正则化的本征音说话人自适应方法

语音关键词检测系统中基于时长和边界信息的置信度

一种融合音位属性的语音文档索引方法

基于语速调整和音位属性后验概率的音素识别

基于Seneff 听觉谱特征的汉语连续语音声韵母边界检测

语音关键词识别中基于MLP 帧级子词后验概率的置信度方法

声学模型区分性训练中的动态加权数据选取方法

基于能量谱熵的英语摩擦音检测方法

融合查询扩展和动态匹配的集外词检测

语音识别中基于低秩约束的本征音子说话人自适应方法

语种识别中的正则化i-vector算法

基于得分归一化和系统融合的语音关键词检测方法

融合后验概率置信度的动态匹配词格检索

基于动态时间规整的语音样例快速检索算法

基于词级DPPM的连续语音关键词检测

基于词向量特征的循环神经网络语言模型

基于音素混淆模型的集外词查询项扩展方法

基于能量变化率的汉语塞音检测算法

采用逼近优化的提升大边距估计准则

基于子词PSPL的汉语语音文档索引

基于音位属性和边界信息的音素识别

一种融合IB准则特征的说话人分段聚类方法

融合边界信息的语音样例快速检索

基于动态匹配词格检索的关键词检测

正交拉普拉斯语种识别方法

基于能量谱熵的摩擦音检测

基于区分性特征的音素识别

基于分段动态时间规整的语音样例快速检索

语音识别中基于低秩约束的本征音子说话人自适应

Rapid speaker adaptation using compressive sensing

基于加权有限状态转换器的语音查询项检索技术

一种基于RBM 的深层神经网络音素识别方法

一种广义边距区分性训练准则

基于本征音子说话人子空间的说话人自适应算法

采用词图相交融合的语音关键词检测方法

基于后验概率特征的改进无监督语音样例检测

基于群稀疏约束的语音识别特征混合判别分析

基于正则化 i-Vector 算法的语种识别

一种基于改进得分分布的查询项特定阈值方法

不相关匹配追踪的分段区分性特征变换方法

基于音素后验概率和层次凝聚聚类算法的音素边界检测

一种区分性互补系统构造与融合的语音识别方法

匹配追踪说话人自适应方法

Speaker adaptation based on regularized speaker-dependent eigenphone matrix estimation

基于循环神经网络语言模型的N-best重打分算法

基于发音特性的摩擦音和塞擦音分类算法

基于最大似然可变子空间的快速说话人自适应方法

Bayesian Speaker Adaptation Based on a New Hierarchical Probabilistic Model

基于子空间映射和得分规整的GSV-SVM方言识别

一种鲁棒性层次化语音/非语音检测方法

连续语音解码阈值参数的优化

基于长时性特征的音位属性检测方法

一种基于人耳听觉感知和子带补偿滤波的鲁棒语言辨识特征参数提取算法

基于声学特征空间非线性流形结构的语音识别声学模型

特征空间本征音说话人自适应

基于MCE准则的语音识别特征线性判别分析

基于匹配追踪的说话人自适应方法

一种新的基于子空间的说话人自适应方法

借助音频数据的发音字典新词学习方法

子空间域相关特征变换与融合的语音识别方法

基于卷积神经网络的维吾尔语语音识别

结合全局词向量特征的循环神经网络语言模型

语音关键词识别中基于MLP帧级子词后验概率的置信度方法

基于缺失数据补偿的鲁棒语音识别

基于音位属性检测的PSPL改进方法

基于正则化i-Vector算法的语种识别

基于ATWV优化和偏差补偿的词相关置信度规整

语音查询项检索中的两阶段得分规整方法

基于循环神经网络语言模型的N-bes t重打分算法

基于声学分段模型的无监督语音样例检测

基于互补子词单元词图融合的集外词识别

基于深层神经网络的多特征关联声学建模方法

基于本征音子说话人子空间的说话人自适应算法

不相关匹配追踪的分段区分性特征变换方法

基于声学特征空间非线性流形结构的语音识别声学模型

特征空间本征音说话人自适应

采用HDPHMM符号化器的语音查询样例检测方法

借助音频数据的发音字典新词学习方法

一种新型的类语音调制方法

一种基于遗传算法的类语音调制方法

子空间域相关特征变换与融合的语音识别方法

基于卷积神经网络的维吾尔语语音识别

语音查询项检索中的两阶段得分规整方法

基于互补子词单元词图融合的集外词识别

基于深层神经网络的多特征关联声学建模方法

期刊信息

《通信学报》
中国科技核心期刊

主管单位:中国科学技术协会
主办单位:中国通信学会
主编：杨义先
地址：北京市丰台区成寿寺4路11号邮电出版大厦8层
邮编：100078
邮箱：
电话：010-81055478 81055481

国际标准刊号：ISSN：1000-436X
国内统一刊号：ISSN：11-2102/TN
邮发代号:2-676

获奖情况:
信息产业部通信科技期刊优秀期刊二等奖

国内外数据库收录:
荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:25019