本项目旨在对说话人言语表达的韵律模式进行分析,考察音视觉特征的变化规律及交互作用;分析不同人的韵律模式差异,建立个性化模型;研究个性化韵律模式的生成算法,实现个性化虚拟说话人生成。在个性化音视频数据方面,采取语义情境描述的方式设计语料,采集3女2男的多情境数据库;采用SSML订立统一标注体系,并扩展韵律结构及表现力相关的标记格式。在韵律模式建模方面,将韵律词中音节按照与"核心音节"的位置关系分为4类,分析其声学特征差异,提出一种面向韵律模式生成的非线性韵律叠加模型;并提出基于韵律结构的全局与局部结合的方法,实现层次化的韵律分析与建模。在个性化韵律建模与生成方面,研究不同说话人的音高特征变化,提出一种能反映说话人特点的音高模式,并给出描述说话人音高特点的参数化方法;进而提出一种双层非线性叠加模型进行个性化韵律模式建模与生成。针对个性化表情脸像生成,提出一种语义维度的方法,通过语义特征描述说话人的个性化表情脸像特征;并以语义特征为基础,将文字语音脸像有机整合;进而将FAP参数驱动的表情脸像生成方法用于特定说话人照片,实现个性化人脸表情生成算法。最终构建个性化的虚拟说话人系统。
英文主题词Prosodic Pattern; Personalized Modeling; Audio-Visual Bimodal Modeling; Visual Prosody; Text-to-Audio-Visual-Speech Synthesis