位置:立项数据库 > 立项详情页
非特定人自然语音情感识别的建模方法研究
  • 项目名称:非特定人自然语音情感识别的建模方法研究
  • 项目类别:面上项目
  • 批准号:61171116
  • 申请代码:F010403
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:徐明星
  • 依托单位:清华大学
  • 批准年度:2011
中文摘要:

语音情感识别研究如何通过语音信号辨识说话人的情感状态。本项目研究非特定人自然语音情感的感知建模与识别,对于揭示人类情感活动的机理和探索人类智能行为的本质,具有重大的意义。研究重点在于如何将特定人、离散情感的语音情感识别发展为非特定人、连续情感的语音情感识别。明确区分心理情感状态空间、情感计算空间、情感文字描述空间,研究它们的内在性质和相互关系。把基本情感论和情感维度论结合起来,研究支撑情感计算空间的构建方法,确定情感计算空间与情感文字描述空间的映射关系,以及不同人情感计算子空间之间的映射关系。研究非特定人情感共性表达的声学特征提取算法。建立一个非特定人自然语音情感识别的原型系统。

结论摘要:

语音是人类最方便的交流工具,传递着多种信息,如语义内容、话者身份、情感状态等,在和谐人机交互中扮演着重要的角色。非特定人自然语音情感的感知建模与识别有助于揭示人类情感活动的机理具有重大的意义,受到了越来越多的研究者关注。 针对非特定人自然语音情感识别,本项目研究了表达情感信息的声学特征提取与变换方法,以提高声学特征对非特定人情感共性的代表性,以及声学特征对环境变化、发音变化的鲁棒性;基于情感范畴观和情感维度观,分别研究了情感类别的动态变化检测和连续维度情感的回归分析,提出了相应的声学建模方法;研究了面向自然连续语音情感识别的情感关键词检出算法和疑问语气检测算法,将语义信息和超音段信息集成到声学特征中;通过从网络访谈视频节目收集情感音频片段,构建了一个非特定人自然连续语音真实情感数据库,并搭建了一个非特定人自然语音情感识别的原型系统。 针对随时间连续变化的维度情感的动态预测,本项目提出了一种基于深层双向LSTM多尺度融合的回归分析算法,以及一种基于双层SVR的多尺度回归分析算法。在MediaEval 2015组织的音乐情感识别评测任务中,这两种方法的预测效果都优于组织者提供的基线系统。 针对基于离散情感类别的变化检测,提出了一种基于滑动窗的多尺度融合检测算法,情感变化检测的F值最高可以达到93.69%,表明多尺度融合算法的有效性。针对发音方式变化对声学特征空间的影响,提出了两种鲁棒声学特征提取算法,即基于联合因子分析的方法和基于稀疏表示的方法。在一个含有12种发音方式的说话人识别语音数据库上的说话人确认等错误率EER比GMM-UBM基线系统下降了39.85%。 提出了一种基于声音频谱指纹和音频信息结构的环境鲁棒的声学特征提取算法,在TRECVID2009音频拷贝检测数据上达到了98.29%的平均召回率,表明该声学特征提取方法能克服环境变化带来的影响。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 1
  • 14
  • 0
  • 0
  • 0
相关项目
期刊论文 21 会议论文 3 著作 1
期刊论文 12 会议论文 6 获奖 2 专利 6
期刊论文 34 会议论文 3 专利 4
期刊论文 11 会议论文 5 专利 4
徐明星的项目