大语料库语音合成方法,是目前应用较多的语音合成方法。如果能一次构建语音库,供所有应用环境使用,大语料库语音合成系统就具有了可伸缩性。可伸缩性研究的关键问题是,必须给出统一的、自动化的、不定长损失最小的语音库裁剪方法。 针对这一关键性问题,本文首先提出NuClustering-VPA算法对不同粒度的不定长变体进行递阶聚类,根据高阶聚类结果调整低阶变体的聚类,从而保留在声韵上最为重要的变体。接着,为了提高裁剪方法的自动化程度;同时进一步降低不定长损失,将不定长的评价和合成系统的变体挑选结合起来。本文提出虚拟不定长替换的概念,意图弥补不定长的损失。并结合合成使用变体的频度,给出了可以任意比例裁剪语音库的StaRp-VPA算法。 大规模测听表明,两种算法在裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,StaRp-VPA给出的音库合成自然度也不会严重降低。这些技术在中科大讯飞语音合成系统的移植中得到很好的应用。
英文主题词Speech Synthesis; Text to Speech; synthesis instance pruning; scalable Speech Synthesis system