高表现力的语音合成是人机交互领域的一个重要研究课题。本研究起始于由文本内容表达所确定的语音表现力的描述,重点研究了表现力语音声学特征的建模与转换。主要研究成果如下 1.抽取了描述信息表达模式的文本表现力特征集(ETFS),提出了一种基于文本表现力特征表示文本表现力的方法。采用三维PAD情感模型量化描述文本的表现力特征。定义了一套对话活动的D值和关键概念的(P,A)值的标注规则标注了韵律词级和语句级的表现力特征。 2.提出并建立了一种表现力声学特征预测模型(EAPM)。利用非线性回归获得模型,通过文本表现力特征的D值和(P,A)值预测表现力声学特征的变化率。实验结果表明,该模型输出的声学特征有效描述了语音的表现力。 3.提出一种基于合成分析法建立表现力声学特征叠加模型(EASM)的方法。利用支持向量回归建立模型,采用合成分析法,利用模型的预测误差迭代优化模型参数。 4.在歌词到歌曲的转换、情感语音合成、方言的韵律转换和语音信号处理等方面展开了研究,提出了基于五度字调模型的方言语音韵律转换方法,利用GMM建立了语音的频谱模型,采用CS理论实现语音增强,利用FPGA实现了语图仪。
英文主题词Semantic Prior; Expressivity;Speech Synthesis, Text-to-Speech Synthesis; Expressive Model