位置:成果数据库 > 期刊 > 期刊详情页
融合引导概率的语音识别解码算法研究
  • 期刊名称:声学学报(中文版)
  • 时间:2012.3
  • 页码:209-217
  • 分类:TN912.34[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100190
  • 相关基金:国家重点基础研究发展计划(973计划)(2004CB318105)、国家高技术研究发展计划(863计划)(20060101Z4073,2006AA012194)和国家自然科学基金(90820011,60675026,90820303)资助项目.
  • 相关项目:行车环境听觉模型及声音处理关键技术
中文摘要:

语音帧在声学特征空间中的位置信息可以辅助解码器对潜在路径进行筛选。传统的语音识别系统缺乏利用这种位置信息。针对这种不足,本文提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并将其用于识别。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。实验结果显示,融合引导概率的解码算法在不显著增加解码复杂度的情形下,使汉字相对错误率下降10.95%。结果分析表明,融合了语音帧声学位置信息的解码方法能够更有效地鉴别潜在路径,从而降低误识率。

英文摘要:

This paper integrates location information of frames into conventional acoustic model (AM) and language model (LM) likelihoods, in order to distinguish potential path candidates more precisely at decoding stage. This paper proposes an induced probability, which represents location information of frames within the whole acoustic space. By integrating the induced probability, the decoder is directed to search within the most promising regions of acoustic space. Promising paths are enhanced and unlikely paths are weakened. Experiments conducted on Chinese Putonghua show that the character error rate is reduced by 10.95% relatively without increasing decoding complexity significantly. Finally, pruning analysis shows that integrating location information of frames into traditional decoding framework is helpful for improving system performance.

同期刊论文项目
期刊论文 41 会议论文 55 著作 2
同项目期刊论文