人脸动画合成研究虽已取得极大进展,然而,从心理认知的角度看,人脸动画正遭遇"诡异谷"现象。如何跨越人脸动画"诡异谷"的研究刚刚起步,相关研究成果极少。最新的研究结果表明,人脸动作与表情同人的性格特征具有明确的定性关系。但是,如何量化这种关系并将其应用于人脸动画合成却是一个未解决问题。基于这一背景,本课题拟研究体现性格特征的语音驱动人脸动画合成新方法,提高人们对虚拟角色的认同感,跨越人脸动画"诡异谷"。本课题将首先建立包含15个以上个体人脸表情运动捕获数据、语音数据以及个体性格特征的人脸动画样本库,并通过相关性分析学习建立每个个体的语音-人脸动画隐马尔可夫模型,在此基础上通过构造径向基函数网络学习人体性格特征同语音-人脸动画隐马尔可夫模型之间的关系,据此合成体现性格特征的人脸动画,最后拟通过交叉验证以及用户评价来验证合成结果的有效性。
facial animation;speech-driven facial animation;;;
计算机动画正遭遇所谓的“诡异谷”。如何跨越人脸动画“诡异谷”的研究刚刚起步,相关研究成果极少。本课题旨在探究体现个体性格等情感特征的语音驱动人脸动画新技术,期望促进跨越人脸动画“诡异谷”的研究。“诡异谷”现象的产生是与人们的心理认知密切相关的,因此,本课题采集了包含15个以上个体人脸表情运动捕获数据、语音数据以及个体性格等情感特征的人脸动画样本库,并采用数据驱动的方法展开研究。本课题攻克的主要技术问题如下。 (1) 人脸表情非线性形状融合参数空间优化问题。语音-人脸动画中的情感信息来源于人脸运动捕获中的稀疏标记点信息,因此,如何从这些稀疏信息中提取可准确反映人脸生理结构特征的人脸表情参数是本课题研究中的基本问题。这一问题在2006年的人脸动画siggraph course中被认为是“An Open Unexplored Issue”,其技术难度表现在在描述真实人脸模型同数字人脸模型的映射关系时人脸模型间形状相似度表达难;在描述人脸生理结构约束时视觉认知表达难,数值优化存在过拟合问题。本课题在此方向的前期工作被siggraph 2010论文“Example-Based Facial Rigging”引用;近期的工作被eurographics 2012论文“A Facial Rigging Survey”引用。 (2) 语音驱动人脸动画中表情细节合成问题。早前的语音驱动人脸动画研究工作大多仅关注与语音匹配的唇部动画合成,忽略了面部其他五官的运动细节,难以表达丰富的情感信息。因为,人们在交谈中往往会伴随眨眼、抬眉等体现情感状态的细节信息。在利用语音信号控制人脸表情时,由于控制信号和表情动画的数据维度高且呈现非线性特征,所以表达这类情感特征的表情细节往往丢失。为此,本课题提出了一种细节信息的补偿机制,实验结果表明该方法比Voice Puppetry计算效率高且合成的表情细节通过了用户评价验证。 (3) 语音驱动人脸动画中情感控制问题。在当前语音情绪识别研究尚在起步阶段的情形下,从语音自动合成反映说话者真实情感的表情动画尚无成熟的技术。本课题采用优化方法从不同情绪的语音人脸动画训练数据中计算得到对应情绪表情基的权重,从而完成情绪表情的参数化及情绪分离。据此可以模拟语境下表情丰富多变的现象,以增加合成语音动画的表现力和感染力。