位置:成果数据库 > 期刊 > 期刊详情页
基于NIST评测的说话人分类及定位技术研究
  • ISSN号:1009-5896
  • 期刊名称:电子与信息学报
  • 时间:2011.12.12
  • 页码:1234-1237
  • 分类:TN912.3[电子电信—通信与信息系统;电子电信—信息与通信工程]
  • 作者机构:[1]清华大学电子工程系,北京100084
  • 相关基金:国家自然科学基金委员会与香港研究资助局联合科研基金(60931160443); 国家863计划项目(2008AA040201 2008AA02Z414); 国家自然科学基金(90920302 61005019)资助课题
  • 相关项目:多人多方对话中的语音分离、内容分析与理解
中文摘要:

该文针对美国国家标准与技术研究院(NIST)的NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3°以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。

英文摘要:

This paper builds one speaker diarization and localization speech processing system based on Multiple Distance Microphone(MDM) for NIST evaluation,and proposes a modified clustering algorithm based on time delay estimation,which can decrease the complexity of speaker diarization and improve the correct rate under the guarantee of stable performance.A new time delay matrix structure is proposed,which can acquire multiple speakers' direction angle.It is the real speech data collected under the standard session environment to validate the algorithms.The correct rate of proposed speaker diarization algorithm is similar with other speaker diarization system existed;Location algorithm direction angle error is less than 3.The results show that under appropriate conditions,the MDM system can be a better input device applied to multiple dialogue scenes.

同期刊论文项目
期刊论文 111 会议论文 69 获奖 6
同项目期刊论文
期刊信息
  • 《电子与信息学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院电子学研究所 国家自然科学基金委员会信息科学部
  • 主编:朱敏慧
  • 地址:北京市北四环西路19号
  • 邮编:100190
  • 邮箱:jeit@mail.ie.ac.cn
  • 电话:010-58887066
  • 国际标准刊号:ISSN:1009-5896
  • 国内统一刊号:ISSN:11-4494/TN
  • 邮发代号:2-179
  • 获奖情况:
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:24739