位置:成果数据库 > 期刊 > 期刊详情页
基于递归神经网络的语音识别快速解码算法
  • ISSN号:1009-5896
  • 期刊名称:《电子与信息学报》
  • 时间:0
  • 分类:TP391.42[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院声学研究所语言声学与内容理解重点实验室,北京100190, [2]中国科学院大学,北京100190, [3]中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室,乌鲁木齐830011
  • 相关基金:国家自然科学基金(U1536117,11590770-4),国家重点研发计划重点专项(2016YFB0801200,2016YFB0801203),新疆维吾尔自治区科技重大专项(2016A03007-1)
中文摘要:

递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型(Hidden Markov Model,HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。

英文摘要:

Recurrent Neural Networks (RNN) are widely used for acoustic modeling in Automatic Speech Recognition (ASR). Although RNNs show many advantages over traditional acoustic modeling methods, the inherent higher computational cost limits its usage, especially in real-time applications. Noticing that the features used by RNNs usually have relatively long acoustic contexts, it is possible to lower the computational complexity of both posterior calculation and token passing process with overlapped information. This paper introduces a novel decoder structure that drops the overlapped acoustic frames regularly, which leads to a significant computational cost reduction in the decoding process. Especially, the new approach can directly use the original RNNs with minor modifications on the HMM topology, which makes it flexible. In experiments on conversation telephone speech datasets, this approach achieves 2 to 4 times speedup with little relative accuracy reduction.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电子与信息学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院电子学研究所 国家自然科学基金委员会信息科学部
  • 主编:朱敏慧
  • 地址:北京市北四环西路19号
  • 邮编:100190
  • 邮箱:jeit@mail.ie.ac.cn
  • 电话:010-58887066
  • 国际标准刊号:ISSN:1009-5896
  • 国内统一刊号:ISSN:11-4494/TN
  • 邮发代号:2-179
  • 获奖情况:
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:24739