位置:成果数据库 > 期刊 > 期刊详情页
基于基频的情感语音聚类的说话人识别方法
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]浙江大学计算机科学与技术学院,杭州310027
  • 相关基金:国家杰出青年基金项目(No.60525202)、国家自然科学基金项目(No.60533040)、教育部新世纪优秀人才计划项目(No.NCET-04-0545)、国家高技术研究发展计划项目(No.2006AA012136)、长江学者和创新团队发展计划项目(No.IRT0652)和浙江省自然科学基金项目(No.Y106705)资助
中文摘要:

针对存在情感差异性语音情况下说话人识别系统性能急剧下降以及缺乏充足情感语音训练说话人模型的问题,提出一种基于基频的情感语音聚类的说话人识别方法,能有效利用系统可获取的少量情感语音.该方法通过对男女说话人设定不同的基频阈值,根据阈值,对倒谱特征进行聚类,为每个说话人建立不同基频区间的模型.在特征匹配时,选用最大似然度的基频区间模型的得分作为该说话人的得分.在中文情感语音库上的测试结果表明,与传统的基于中性训练语音的高斯混合模型说话人识别方法和结构化训练方法相比,该方法具有更高的识别率.

英文摘要:

Speech with various emotions aggravates the performance of speaker recognition system. A pitch-dependent affective speech clustering method for speaker modeling is proposed. This method aims to exploiting the affective material effectively in the speaker systems. Thresholds for pitches are determined for the male and the female separately. The cepstral features in the same pitch range are clustered. Different pitch-dependent models are built with the corresponding cluster features by map adaptation for each speaker. The maximum likelihood rule is applied to the matched models and the identification of the person. The proposed method is evaluated on the mandarin affective speech corpus. Experimental results show that the proposed approach is more powerful and efficient than the cepstral feature based method and the structure training method for speaker recognition.

同期刊论文项目
期刊论文 38 会议论文 36 专利 32 著作 4
期刊论文 46 会议论文 74 专利 11
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169