可伸缩中文语音合成系统的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

可伸缩中文语音合成系统的研究

项目名称：可伸缩中文语音合成系统的研究
项目类别：青年科学基金项目
批准号：60602017
申请代码：F010402
项目来源：国家自然科学基金
研究期限：2007-01-01-2009-12-31

项目负责人：张巍
负责人职称：副教授
依托单位：中国海洋大学
批准年度：2006

中文摘要：

大语料库语音合成方法，是目前应用较多的语音合成方法。如果能一次构建语音库，供所有应用环境使用，大语料库语音合成系统就具有了可伸缩性。可伸缩性研究的关键问题是，必须给出统一的、自动化的、不定长损失最小的语音库裁剪方法。针对这一关键性问题，本文首先提出NuClustering-VPA算法对不同粒度的不定长变体进行递阶聚类，根据高阶聚类结果调整低阶变体的聚类，从而保留在声韵上最为重要的变体。接着，为了提高裁剪方法的自动化程度；同时进一步降低不定长损失，将不定长的评价和合成系统的变体挑选结合起来。本文提出虚拟不定长替换的概念，意图弥补不定长的损失。并结合合成使用变体的频度，给出了可以任意比例裁剪语音库的StaRp-VPA算法。大规模测听表明，两种算法在裁剪率小于50%时，合成自然度几乎没有下降；当裁剪率大于50%时，StaRp-VPA给出的音库合成自然度也不会严重降低。这些技术在中科大讯飞语音合成系统的移植中得到很好的应用。

中文主题词：语音合成；文语转换；语音库裁剪；可伸缩语音合成系统

结论摘要：

英文主题词Speech Synthesis; Text to Speech; synthesis instance pruning; scalable Speech Synthesis system

成果综合统计