位置:成果数据库 > 期刊 > 期刊详情页
基于标点信息和统计语言模型的语音停顿预测
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京工业大学计算机科学学院,北京100022, [2]山西大学计算机与信息技术学院,太原030006, [3]北京语言大学信息科学学院,北京100083
  • 相关基金:国家自然科学基金资助项目(No.60572159,60573184,60473139)
中文摘要:

语音停顿被认为是有声语言的标点符号.在语言交流中,说话人会在韵律短语的边界处插入长短不同的停顿.利用这一性质,在调查标点符号停顿作用的基础上,提出基于标点信息预测语音停顿的思想,阐述基于标点和统计模型的训练语料自动获取以及语音停顿预测方法,讨论训练语料规模对模型性能的影响,并比较基于标点信息的自动获取语料与人工标注语料的性能.实验结果显示,汉语的标点提供有价值的停顿信息,基于汉语标点信息能够有效预测语音停顿.

英文摘要:

Speech pauses are considered as punctuation marks of spoken language. People always insert different pauses at the boundaries of rhythmic phrases when communicating by language. Based on this characteristic, the speech pause of punctuation marks is investigated and the concept of predicting speech pauses using punctuation information is proposed. The punctuation-based and SLM-based methods are introduced to obtain training corpus and predict speech pauses. The influence of training corpus size on the performance of model is discussed. And the performance of punctuation-based corpus and manually-labeled corpus is compared. Experimental results show that the Chinese punctuation supplies valuable information on pause, and the method based on punctuation information can predict the Chinese speech pauses effectively.

同期刊论文项目
期刊论文 29 会议论文 6 著作 3
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169