位置:成果数据库 > 期刊 > 期刊详情页
借助音频数据的发音字典新词学习方法
  • ISSN号:0253-987X
  • 期刊名称:《西安交通大学学报》
  • 时间:0
  • 分类:TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:解放军信息工程大学信息系统工程学院,郑州450002
  • 相关基金:国家自然科学基金资助项目(61175017,61403415,61302107).
中文摘要:

针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。

英文摘要:

A self-learning method of new pronunciation lexicons based on a hybrid speech recognition system is proposed to solve the problem that the existing self-expanding methods of pronunciation lexicons can only learn new words from text data but cannot learn from audio data.The method utilizes both the syllables and the graphones hybrid systems to recognize the out-ofvocabulary words in the audio data and then obtains as many new words with their pronunciations as possible by using the complementary information of the two systems.Then the new word and its pronunciation candidates are optimized using aperceptron model and a maximum entropy model to reduce the error rate.Finally,the lexicon is expanded and the language model parameters are updated by using syntactic and semantic information.Experimental results of continuous speech recognition on Wall Street Journal speech database show that the proposed method learns new words from audio data effectively,and the accuracy is greatly improved by using the data optimization strategies.The extended lexicon system yields a relative gain of13.4% over the base line system in terms of word error rates.

同期刊论文项目
期刊论文 85 会议论文 9 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《西安交通大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人共和国教育部
  • 主办单位:西安交通大学
  • 主编:陶文铨
  • 地址:西安市咸宁西路28号
  • 邮编:710049
  • 邮箱:xuebao@mail.xjtu.edu.cn
  • 电话:029-82668337 82667978
  • 国际标准刊号:ISSN:0253-987X
  • 国内统一刊号:ISSN:61-1069/T
  • 邮发代号:52-53
  • 获奖情况:
  • 美国《工程索引》(EI光盘版)定期收录的中文期刊,《中文核心期刊目录总览》综合类核心期刊,科技部《科技论文统计与分析》统计源,《中国科学引文数据库》刊源,获全国高校优秀科技期刊一等奖,“百种中国杰出学术期刊”称号,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27275