东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

面向口语统计语言模型建模的自动语料生成算法

ISSN号：0254-4156
期刊名称：《自动化学报》
时间：0
分类：TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
作者机构：[1]北京理工大学信息与电子学院,北京100081, [2]江西理工大学信息工程学院,江西赣州341000, [3]中国科学院声学研究所语言声学与内容理解重点实验室,北京100190
相关基金：国家重点基础研究发展计划项目资助（2013CB32930）; 国家自然科学基金资助项目（61271426,10925419,90920302,61072124,11074275,11161140319,91120001）; 中国科学院战略性先导科技专项基金资助项目（XDA06030100,XDA06030500）; 国家“八六三”计划项目（2012AA012503）; 中科院重点部署资助项目（KGZD-EW-103-2）; 江西理工大学科研基金资助项目（NSFJ2015-G21）

作者：司玉景[1], 肖业鸣[1], 徐及[1], 潘接林[1], 颜永红[1]

关键词：语音端点检测, 动态分割, 聚类, 最小描述长度准则, speech endpoint detection, automatic segmentation, cluster, minimum description length criterion

中文摘要：

在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语音的频谱包络在时间维度上分割成具有特征同一性的时间块,以分割块为单位计算能量特征,并进行语音/非语音决策,从而达到提高语音端点检测的稳定性目的.实验表明,提出的方法有效提高了语音端点检测的鲁棒性.

英文摘要：

The acoustic feature is not robust enough due to the interference of environmental noises.Some heuristic approaches of smoothing noisy spectra were introduced to treat with this problem.But those methods did not consider the intrinsic correlation in the time domain.This paper presents a novel method of endpoint detection,where the time sequence of logarithmic power was partitioned into homogeneous blocks using dynamic auto-segmentation.The acoustic feature was extracted from each homogenous block.The endpoint detection was conducted based on the unit of homogenous block.The experimental results showed the superiority of the proposed method.

同期刊论文项目

面向语音处理的言语声学数字化建模

期刊论文 81 会议论文 59

行车环境听觉模型及声音处理关键技术研究

期刊论文 38 会议论文 44

面向下一代互联网的超临场感声通信应用研究

期刊论文 50 会议论文 53

多人多方对话中的语音分离、内容分析与理解

期刊论文 111 会议论文 69 获奖 6

语音缺失频谱重建及语音频谱二维相关性建模的研究

期刊论文 28

双耳语音可懂度增强技术的研究

期刊论文 32 会议论文 7

应用于钢琴计算机辅助教学的自动音乐记谱技术的研究

期刊论文 29 会议论文 1 专利 1

同项目期刊论文

A Comparative Study on Selecting Acoustic Modeling Units in Deep Neural Networks based Large Vocabul

A computational model for assessment of speech intelligibility in informational masking

Multi-level Linguistic Knowledge Based Chinese Grapheme-to-Phoneme Conversion

面向大语料库的语音合成方法研究

融合测程法与视觉信息的足球机器人自定位方法

近场结构化头相关传输函数的测量与分析

成年口吃者流畅朗读中塞音的声学分析

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

鉴别性最大后验概率声学模型自适应

中文口语理解弱监督训练方法

语音识别中深度神经网络目标值优化

基于卷积神经网络的连续语音识别

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

ANC次级通道在线建模的辅助噪声控制方法

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

汉语语言集外词检索算法的改进研究

基于非负矩阵分解的钢琴多音符估计

卷积神经网络在语音识别中的应用

基于张量分解模型的语音信号特征提取方法

嵌入式中文语音合成系统非周期成分音节层建模方法

A novel cache size optimization scheme based on manifold learningin Content Centric Networking

一种结合G.719编解码器的参数立体声音频编解码扩展方法

A Novel Multichannel Audio Signal Compressing Method Based on Tensor Representation and Decompositio

Mapping methods for output-based objective speech quality assessment using data mining

Context-based adaptive arithmetic coding in time and frequency domain for the lossless compression o

Objective and Subjective Investigation on a Novel Method for Digital Reverberator Parameters Estimat

A sound image externalization approach for headphone reproduction by simulating binaural room impuls

A Policy-Based Web Service Redundancy Detection in Wireless Sensor Networks

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

成年口吃者流畅朗读中塞音的声学分析

多特征融合的英语口语考试自动评分系统的研究

可重构网络中基于中心度与拓扑势排序的资源分配算法

波场合成与波场分析的有源房间补偿方法

A Novel Cache Size Optimization Scheme Based on Manifold Learning in Content Centric

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

鉴别性最大后验概率声学模型自适应

中文口语理解弱监督训练方法

语音识别中深度神经网络目标值优化

基于卷积神经网络的连续语音识别

语言声学与内容理解研究进展

Towards Qo E-based resource allocation schemes in SC-FDMA systems

基于频域逐级回归的声学回声控制

基于词矢量相似度的短文本分类

行驶汽车环境中的话音活动检测研究

Speex编码器中回声消除算法的分析与评估

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

ANC次级通道在线建模的辅助噪声控制方法

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

汉语语言集外词检索算法的改进研究

基于非负矩阵分解的钢琴多音符估计

卷积神经网络在语音识别中的应用

融合测程法与视觉信息的足球机器人自定位方法

对听感觉运动门控自上而下调节的动物模型和神经机制

Informational masking of speech produced by speech-like sounds without linguistic content

Discriminative training of GMM-HMM acoustic model by RPCL learning

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

最小方差无失真响应感知倒谱系数在说话人识别中的应用

Effects of aging on the ability to benefit from prior knowledge of message content in masked speech

Tone Enhancing Model for Disyllable Words in Chinese Mandarin Speech

基于扩展N元文法模型的快速语言模型预测算法

Improved Keyword Spotting System in Weighted Finite-State Transducer Framework

成年口吃者流畅朗读中塞音的声学分析

A Novel Discriminative Method for Pronunciation Quality Assessment

Aging effects on detection ofspectral changes induced by a break in sound correlation

Discriminative GMM-HMM Acoustic Model Selection Using Two-Level Bayesian Ying-Yang Harmony Learning

Lightly Supervised Acoustic Model Training for Mandarin Continuous Speech Recognition

A comparative study of RPCL and MCE based discriminative training methods for LVCSR

Improvement of intelligibility of ideal binary-masked noisy speech by adding background noise

Relationship between Distance and Binaural Cues on Sound Source Localization (in Chinese)

Harmonic Structure Features for Robust Speaker Diarization

Two-Microphone Noise Reduction Using Spatial Information-Based Spectral Amplitude Estimation

多特征融合的英语口语考试自动评分系统的研究

Comparative intelligibility investigation of single-channel noise-reduction algorithms for Chinese,

A Hybrid Speech Emotion Recognition System Based on Spectral and Prosodic Features

语言声学的最新应用

Speech Enhancement Using Robust Generalized Side lobe Canceller with Multi-Channel Post-Filtering in

Factor Analysis of Neighborhood Preserving Embedding for Speaker Veri?cation

Language Recognition with Language Total Variability

Logarithmic adaptive quantization projection for audio watermarking

Noise Estimation Using a Constrained Sequential Hidden Markov Model in the Log-Spectral Domain

基于空间声场扩散信息的混响抑制方法

基于NIST评测的说话人分类及定位技术研究

一种基于帧-音符方式的哼唱检索算法

集合分类中的鉴别式局部信息距离保持映射

基于线性对数似然核函数的说话人识别

基于MLER和GMM的语音音乐分类

各种不同的基于词格的鉴别性训练方法在中文单语以及中英双语语音识别系统中的性能改善调研及比较(英文)

大规模词表连续语音识别引擎紧致动态网络的构建

Multi-stream posterior features and combining subspace GMMs for low resource LVCSR

Multi-resolution time frequency feature and complementary combination for short utterance speaker re

基于核函数的IVEC-SVM说话人识别系统研究

基于总体变化子空间自适应的i-vector说话人识别系统研究

基于多模态信息融合的语音意图理解方法

用于语音识别置信度的发音特征各维度分析和子集优化

利用领域信息的基于字的鲁棒中文口语理解研究

Acoustic characteristics of stop consontants in fluent reading Chinese Putonghua speech of adult stu

Auditory frequency-following response: a neurophysiological measure for studying the “cocktail-party

联合因子分析和稀疏表示在稳健性说话人确认中的应用

Discrimination Between Pathological and Normal Voices Using GMM-SVM Approach

Fast Speech Recognition System Using Weighted Finite-State Transducers

Voice Activity Detection Based on an Unsupervised Learning Framework

Speaker Recognition Using Sparse Probabilistic Linear Discriminant Analysis

A Forced Alignment Based Approach for English Passage Reading Assessment

基于在线语音流的字幕自动生成系统算法研究与实现

Factor Analysis of Neighborhood-Preserving Embedding for Speaker Verification

Discriminative Decision Function Based Scoring Method Used in Speaker Verification

基于TLS-NAP的文本无关说话人识别算法

Soccer Robot Self-Localization by Combining Odometry and Visual Information (in Chinese)

联合因子分析中的本征信道空间拼接方法

基于优化检测网络和MLP特征改进发音错误检测的方法

Adding irrelevant information to the content prime reduces the prime-induced unmasking effect on spe

英语篇章朗读质量的自动评分

用于版权管理的数字音频水印算法

Enhancing the Robustness of the Posterior-Based Confidence Measures Using Entropy Information for Sp

Enhanced Word Classing for Recurrent Neural Network Language Model

Perceptual MVDR-based cepstral coefficients for speaker recognition

双耳时间差和强度差与声源距离线索关系的研究

三洋摄像机调焦聚焦噪声抑制技术研究

数字摄像机自动聚焦机械噪声消除方法研究

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

鉴别性最大后验概率声学模型自适应

中文口语理解弱监督训练方法

语言声学与内容理解研究进展

基于频域逐级回归的声学回声控制

行驶汽车环境中的话音活动检测研究

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数

波场合成中声像感知距离重建

Noise Robust Feature Scheme for Automatic Speech Recognition Based on Auditory Perceptual Mechanisms

Synthesis of Perceived Distance in Wave Field Synthesis

单通道语音增强算法对汉语语音可懂度影响的研究

汉语发音质量评估的实验研究

混合双语语音识别的研究

Low-dimensional Representation of Gaussian Mixture Model Supervector For Language Recognition

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

最小方差无失真响应感知倒谱系数在说话人识别中的应用

成年口吃者流畅朗读中塞音的声学分析

多特征融合的英语口语考试自动评分系统的研究

基于SVM一对一分类的语种识别方法

用于语音识别置信度的发音特征各维度分析和子集优化

联合因子分析和稀疏表示在稳健性说话人确认中的应用

Efficient System Combination for Chinese Spoken Term Detection

语义类的提取及其在语音搜索系统中的应用

Robust and Fast Localization of Single Speech Source Using a Planar Array

基于在线语音流的字幕自动生成系统算法研究与实现

Detecting anticipatory effects in speech articulation by means of spectral coefficient analyses

A bayesian logistic regression approach to spoken language identification

Maximum a Posteriori Linear Regression for Language Recognition

英语篇章朗读质量的自动评分

用于版权管理的数字音频水印算法

Acoustic Feature Optimization Based on F-Ratio for Robust Speech Recognition

基于发音特征的汉语普通话语音声学建模

基于在线语音流的字幕自动生成系统

Block based language model for target domain adaptation towards Web corpus

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

鉴别性最大后验概率声学模型自适应

中文口语理解弱监督训练方法

语言声学与内容理解研究进展

基于频域逐级回归的声学回声控制

行驶汽车环境中的话音活动检测研究

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

Integrating meaningful signal extraction for intelligent binaural speech enhancement

Binaural sound source localization in noisy reverberant environments based on equalization-cancellat

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

最小方差无失真响应感知倒谱系数在说话人识别中的应用

成年口吃者流畅朗读中塞音的声学分析

多特征融合的英语口语考试自动评分系统的研究

基于在线语音流的字幕自动生成系统算法研究与实现

英语篇章朗读质量的自动评分

用于版权管理的数字音频水印算法

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

中文口语理解弱监督训练方法

语言声学与内容理解研究进展

基于频域逐级回归的声学回声控制

行驶汽车环境中的话音活动检测研究

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

最小方差无失真响应感知倒谱系数在说话人识别中的应用

成年口吃者流畅朗读中塞音的声学分析

多特征融合的英语口语考试自动评分系统的研究

快速准确的自动音乐/语音分段方法

基于在线语音流的字幕自动生成系统算法研究与实现

英语篇章朗读质量的自动评分

用于版权管理的数字音频水印算法

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

中文口语理解弱监督训练方法

语言声学与内容理解研究进展

基于频域逐级回归的声学回声控制

行驶汽车环境中的话音活动检测研究

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数

波场合成中声像感知距离重建

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

中文口语理解弱监督训练方法

语音识别中深度神经网络目标值优化

基于卷积神经网络的连续语音识别

基于词矢量相似度的短文本分类

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

口语对话状态追踪的研究

基于艺人画像的歌曲点播量预测

传声器阵列波束比判决语音增强方法

HMM-based noise estimator for speech enhancement

基于CNN-SVM和转发树的微博事件情感分析

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

ANC次级通道在线建模的辅助噪声控制方法

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

汉语语言集外词检索算法的改进研究

基于非负矩阵分解的钢琴多音符估计

卷积神经网络在语音识别中的应用

基于概率语义分布的短文本分类

期刊信息

《自动化学报》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国自动化学会中国科学院自动化研究所
主编：王飞跃
地址：北京东黄城根北街16号
邮编：100717
邮箱：aas@ia.ac.cn
电话：010-64019820

国际标准刊号：ISSN：0254-4156
国内统一刊号：ISSN：11-2109/TP
邮发代号:2-180

获奖情况:
1997年获全国优秀期刊奖,1985、1990、1996、2000年获中国科学院优秀期刊二等奖,2002年获国家期刊奖

国内外数据库收录:
美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:27550