视频和音频两个模态的信息在交际过程中起着至关重要的作用,本研究关注不同文化背景的发音人情感表达(编码)和听音人对情感感知(解码)与面部表情和情感声音两个模态的关系.为此,我们设计了一个跨文化多模态的情感感知实验,了解中国人和日本人视频和音频的多模态情感表达的模式,探索语音和面部情感表达与情感感知的关系在不同文化中的表现和相互影响,是否两个模态对情感编码和解码在不同文化不同情感中贡献不同,还是不受文化的影响存在一个普遍的模式;跨文化情感表达中,两个模态信息冲突时出现的情感McGurk效应模式如何,是否受文化的影响?研究七种基本情感表达对应的面部动作特征和音色表达的感知特征分布,分析情感认知特征异同;研究不同发音人的情感编码以及不同听音人的情感解码异同;特别是当听音人为第二语言习得者的时候,上述几个问题的表现如何?并对情感语音进行声学和发音分析,探索发音生理、声学特征和感知特征之间的关联模式。
emotion encoding and decoding;McGurk effect of emotion;language and culture;emotional intonation;Brunswik lens model
人在交际过程中无时无刻地对各种模态的信息进行编码、解码和综合理解,语音交互对各种情感表达和感知就是其中一例。面部表情和情感语音的编码和解码过程,一直是心理学和认知科学关注的课题。本研究基于改进的Brunswikian透镜模型,探索跨文化多模态情感语音的编码、解码以及编解码之间的关系,特别是交际双方的不同语言文化背景及情感传递模态对情感编码和解码的影响。通过分析跨文化多模态的情感感知结果,得到中日情感感知模式、声音和面部情感特征;厘清了情感解码的过程与交际双方的语言文化背景以及不同传输模态的关系;建立了音视频感知特征与感知情感的关系。分析结果表明中日感知模式和感知特征有异同,说明情感感知有跨文化的心理基础,但也受到语言文化背景的影响,这种影响对声音模态的影响最大、其次为面部声音一致模态,对面部表情模态影响最小。对于音视频通道情感冲突的模态感知结果表明音频和视频模态与情感的唤醒度相关,存在情感McGurk效应,但是与语言文化背景也相关。通过分析中日情感元音的声学和发音特征、情感语调特征、边界调特征等探索情感编码的机制。发现中日之间情感编码有相同也有跨文化的差异。中日的情感元音声学空间和发音空间在四种情感之间都表现出明显的变化;发音空间中,难过和生气的舌位高于高兴和中性情感,同时中日的愤怒和难过的元音都出现突唇的动作。汉语情感元音有舌位高举动作,日语的情感元音舌位高举的同时还有后缩的动作。对于易混淆的情感,发音空间却有很大的差异。情感语调的调域和调阶在7种基本情感中都有显著的差异,中国人的音域显著大于日本人,我们还发现中国人用后续叠加边界调表达情感。通过合成感知实验,对情感语音的边界调的语音特征与情感表达功能的关系是多对多的模糊逻辑关系,同时提出了新的边界调编码策略进行合成验证,客观和主观评价的结果表明,新的编码策略可以提高情感表达性能。本研究创新点归纳为从心理感知和声学分析角度进行了中日跨文化的情感语音研究, 采用二语习得者做被试,初步理清了语言文化背景与情感传输模态与情感感知的关系;对中日7种基本情感的声音和面部动作感知特征进行研究和对比;发现了情感MGurk效应与交际双方的语言文化相关;视频和音频模态与情感的唤醒度相关;对中日情感语调进行对比,发现了汉语情感语调采用后续叠加边界调表达情感,并探索了后续叠加边界调的声学特征与情感表达的关系。