位置:立项数据库 > 立项详情页
可伸缩中文语音合成系统的研究
  • 项目名称:可伸缩中文语音合成系统的研究
  • 项目类别:青年科学基金项目
  • 批准号:60602017
  • 申请代码:F010402
  • 项目来源:国家自然科学基金
  • 研究期限:2007-01-01-2009-12-31
  • 项目负责人:张巍
  • 负责人职称:副教授
  • 依托单位:中国海洋大学
  • 批准年度:2006
中文摘要:

大语料库语音合成方法,是目前应用较多的语音合成方法。如果能一次构建语音库,供所有应用环境使用,大语料库语音合成系统就具有了可伸缩性。可伸缩性研究的关键问题是,必须给出统一的、自动化的、不定长损失最小的语音库裁剪方法。 针对这一关键性问题,本文首先提出NuClustering-VPA算法对不同粒度的不定长变体进行递阶聚类,根据高阶聚类结果调整低阶变体的聚类,从而保留在声韵上最为重要的变体。接着,为了提高裁剪方法的自动化程度;同时进一步降低不定长损失,将不定长的评价和合成系统的变体挑选结合起来。本文提出虚拟不定长替换的概念,意图弥补不定长的损失。并结合合成使用变体的频度,给出了可以任意比例裁剪语音库的StaRp-VPA算法。 大规模测听表明,两种算法在裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,StaRp-VPA给出的音库合成自然度也不会严重降低。这些技术在中科大讯飞语音合成系统的移植中得到很好的应用。

结论摘要:

英文主题词Speech Synthesis; Text to Speech; synthesis instance pruning; scalable Speech Synthesis system


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 11
  • 8
  • 0
  • 0
  • 0
相关项目
期刊论文 2 会议论文 6 著作 1
期刊论文 17 会议论文 27 著作 1
期刊论文 13 会议论文 6 著作 1
张巍的项目