位置:成果数据库 > 期刊 > 期刊详情页
说话人分割聚类研究进展
  • ISSN号:1003-0530
  • 期刊名称:信号处理
  • 时间:2013
  • 页码:1190-1199
  • 分类:TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:[1]北京工业大学电子信息与控制工程学院语音与音频信号处理研究室,北京100124, [2]江苏师范大学物理与电子工程学院,徐州221009
  • 相关基金:北京市教育委员会科技发展计划重点项目(KZ201110005005);国家自然科学基金资助项目(61072089)
  • 相关项目:基于非线性动力学的音频频带扩展算法研究
作者: 马勇|鲍长春|
中文摘要:

说话人分割聚类是近几年新兴起的语音信号处理研究方向,它主要研究如何确定连续语流中多说话人起止时间的位置,并标出每个语音段对应的说话人。这项研究对自动语音识别、多说话人识别和基于内容的音频分析等都具有重要的意义。根据说话人分割和聚类实现过程不同,本文从异步策略和同步策略的角度回顾了十年来国内外研究的主流算法、技术和代表系统,对比了不同代表系统在近几年NIST富信息转写评测的结果,最后讨论了目前还存在的问题,并对未来的发展进行了展望。

英文摘要:

Speaker segmentation and clustering, which are focused on the determination of the starting and ending time points in multi-speaker audio flows and labeling the speech signal segments with labels corresponding to the identity speaker, have gradually become a hotspot in the field of speech signal processing in the recent years. It plays an important role in auto- matic speech recognition (ASR), multi-speaker recognition and content-based audio signals analysis. Based on the different implementation processes used in the speaker segmentation and clustering, this paper gives a detailed review of the state-of-the- art algorithms, techniques and typical systems proposed in the past decade from the aspects of asynchronous and synchronous strategies. And the performances of the typical systems are compared through the NIST Rich Transcription (RT) evaluations in recent years. The existing problems are discussed and the future prospects of this research area are also described at the end.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信号处理》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:谢维信
  • 地址:北京鼓楼西大街41号
  • 邮编:100009
  • 邮箱:xhclfh@sohu.com
  • 电话:010-64010656
  • 国际标准刊号:ISSN:1003-0530
  • 国内统一刊号:ISSN:11-2406/TN
  • 邮发代号:80-531
  • 获奖情况:
  • 国家一级科技期刊
  • 国内外数据库收录:
  • 美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:10219