本项目旨在将多模态发音模型、表现力可视语音合成技术结合,构建有矫正性认知反馈功能的交互式语言学习平台。研究内容包括提取和估计发音器官运动参数及其与语音参数间的关系、建立音视觉双模态发音模型、建立有矫正性认知反馈功能的语言学习平台等。在发音器官参数及语音特征提取估计方面,采集了面向语言学习的英文音视频同步数据库,以考察英语发音中发音器官的运动状态;设计了焦点与中性对比语料,以对中性与焦点语音的区别进行分析建模、研制焦点语音合成技术进行矫正性反馈;并利用动态变形模板对数据库的唇形特征参数进行提取跟踪。在矫正性认知反馈方面,建立了具有强调功能的焦点语音合成技术,通过对学习者的错误发音进行定位并用焦点重读突出正确读音,让学习者对正确发音有更准确的认识;并针对语言学习中对任意文本的合成需求,提出了HMM焦点语音合成技术,针对不同音素发音方式建立焦点语音补偿模型。在音视双模态发音模型方面,建立了二维视位模型,并基于英语发音对比图提取视位参数,描述发音时音素对应的发音器官状态;并对发音器官建立了包括正面脸像及正中矢面视图的可视语音合成系统,最终构建了交互式在线语言学习平台Enuciate。
英文主题词human-computer interaction; language learning; corrective perceptual feedback; speech recognition; text-to-audiovisual speech synthesis