位置:成果数据库 > 期刊 > 期刊详情页
结合全局词向量特征的循环神经网络语言模型
  • ISSN号:1003-0530
  • 期刊名称:《信号处理》
  • 时间:0
  • 分类:TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:解放军信息工程大学信息系统工程学院,河南郑州450002
  • 相关基金:国家自然科学基金项目(61175017)
中文摘要:

针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用GloVe(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了20.2%,同时语音识别系统的词错误率降低了18.3%。

英文摘要:

Aiming at the insufficient learning ability of long distance information for neural network based language model, a recurrent neural network language model with the global word vectors (GloVe) is proposed in this paper. Firstly, global word vectors are trained by GloVe algorithm. Secondly, global word vectors are regarded as feature vector inputs to the re- current neural network with feature layer. Compared with that of incorporating local word vectors, the GloVe based language model captures the semantic and syntactic information using global statistical information. Experiments on perplexity and continuous speech recognition are performed on Penn Treebank and Wall Street Journal corpus respectively. The results show that the relative perplexity improvement over the conventional recurrent neural network language model reaches 20. 2% and the word error rate of speech recognition system decreases 18.3%.

同期刊论文项目
期刊论文 85 会议论文 9 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《信号处理》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:谢维信
  • 地址:北京鼓楼西大街41号
  • 邮编:100009
  • 邮箱:xhclfh@sohu.com
  • 电话:010-64010656
  • 国际标准刊号:ISSN:1003-0530
  • 国内统一刊号:ISSN:11-2406/TN
  • 邮发代号:80-531
  • 获奖情况:
  • 国家一级科技期刊
  • 国内外数据库收录:
  • 美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:10219