音视融合的韵律模式的个性化研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

音视融合的韵律模式的个性化研究

项目名称：音视融合的韵律模式的个性化研究
项目类别：青年科学基金项目
批准号：60805008
申请代码：F030404
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：吴志勇
负责人职称：副研究员
依托单位：清华大学
批准年度：2008

中文摘要：

本项目旨在对说话人言语表达的韵律模式进行分析，考察音视觉特征的变化规律及交互作用；分析不同人的韵律模式差异，建立个性化模型；研究个性化韵律模式的生成算法，实现个性化虚拟说话人生成。在个性化音视频数据方面，采取语义情境描述的方式设计语料，采集3女2男的多情境数据库；采用SSML订立统一标注体系，并扩展韵律结构及表现力相关的标记格式。在韵律模式建模方面，将韵律词中音节按照与"核心音节"的位置关系分为4类，分析其声学特征差异，提出一种面向韵律模式生成的非线性韵律叠加模型；并提出基于韵律结构的全局与局部结合的方法，实现层次化的韵律分析与建模。在个性化韵律建模与生成方面，研究不同说话人的音高特征变化，提出一种能反映说话人特点的音高模式，并给出描述说话人音高特点的参数化方法；进而提出一种双层非线性叠加模型进行个性化韵律模式建模与生成。针对个性化表情脸像生成，提出一种语义维度的方法，通过语义特征描述说话人的个性化表情脸像特征；并以语义特征为基础，将文字语音脸像有机整合；进而将FAP参数驱动的表情脸像生成方法用于特定说话人照片，实现个性化人脸表情生成算法。最终构建个性化的虚拟说话人系统。

中文主题词：韵律模式;个性化建模;音视融合;可视韵律;可视语音合成

结论摘要：

英文主题词Prosodic Pattern; Personalized Modeling; Audio-Visual Bimodal Modeling; Visual Prosody; Text-to-Audio-Visual-Speech Synthesis

成果综合统计