本项目研究建立一个统一的参数化基频模型框架,使得不同语种的韵律特征(基频曲线)在此框架上具有一致的表现,解决以汉语为主要载体的多语种语音合成系统中不同语言的自然过渡问题;同时借助于模型参数化的特点,通过分析自然语流中基频灵活变化的规律,从模型参数之间的内在联系上建模,使得预测的基频曲线更逼近自然人语音的韵律特征。进而研究应用基频参数模型于多语种语音合成系统,以期显著提高语音合成的自然度和表现力。进行参数化基频模型研究,是在当前汉语合成系统的效果有待不断提高,且已经有了相当技术和数据积累基础下,急需解决的技术课题。适时的抓住时机加强这方面的研究,有望取得汉语语音合成的新突破,在多语种合成方面赶超世界先进水平。因此无论从学科发展,预期的社会效益和经济效益上都有重要的价值。
本项目研究高表现力多语种韵律建模,进而研究应用韵律模型包括基频参数模型及时长模型于多语种语音合成系统,以期显著提高语音合成的自然度和表现力。完成的主要工作有1)建立多语种实验语音数据库,主要包括汉语普通话、粤语、英语、日语等,并完成精细的标注;2)研究与实现统一的多语种基频参数化模型来描述多语种合成的韵律变化,全面地分析了各语种语音的韵律变化规律;3)建立基于隐马尔科夫模型(HMM)的可训练多语种合成系统框架,研究基于HMM框架的韵律建模,提出基于状态和声韵母的两层模型用于时长建模和预测,使合成语音的自然度和韵律节奏感都取得重要的突破。结合本项研究成果建立的"基于HMM模型的语音合成系统",2006年8月,在"Blizzard Challenge 2006" 英语语音合成国际大赛中,获得总成绩第一名,2007年参加"Blizzard Challenge 2007" 再次蝉联综合指标第一。据此我国多语种合成技术的先进性得到国际上研究同行的一致认可,同时由于新技术具有系统尺寸小,系统构建成本低,易于实现多语种、多种风格、多角色语音合成等优点,使得高质量嵌入式语音合成应用成为可能。