本项目将参数式语音合成中声学参数的统计建模引入到语音基元挑选与波形拼接式语音合成中, 结合参数式语音合成在自动训练、灵活性和稳定性方面的长处和波形拼接式语音合成在输出语音音质上的优点, 最终在统计建模框架下研究实现基于可训练语音基元挑选和波形拼接的维吾尔语音合成系统关键技术。首先收集覆盖维吾尔语自然语言现象的文本、进行录制和标注,设计上下文属性集和用于决策树建模的训练样本集,规划并建立平滑的声数模型(由基频、时长和谱参数等参数组成)并对其进行聚类,训练决策树模型;对输入的文本进行分析, 得到目标合成句中各个音素的上下文属性,并依此去训练好的模型集合中决策其对应的声学模型, 用基于最大似然准则挑选基元, 经过波形拼接输出合成语音。作为阿勒泰语系语音合成技术研究中的新技术、新方法,其研究成果将对国内阿勒泰语系语言研究高品质、多样化的语音合成系统奠定基础,并将会得到广阔的应用前景。
speech unit;prosody parameters;unit selection;speech unit segmentation;Uyghur language
本项目首先收集了覆盖维吾尔语自然语言现象的文本、进行录制和标注,研究了基于HMM的自动语音切分技术,扩充了原有音库容量,研究了音库无损压缩和实时按需解压算法,设计了上下文属性集和问题集,建立了平滑的语音基元韵律参数模型(由基频、时长和谱参数等参数组成)并对其进行了聚类;对输入的文本进行分析, 得到目标合成句中各个基元的上下文属性,并对其声学模型进行预测, 用最小代价函数挑选基元, 经过波形拼接输出合成语音。作为研究成果进行了2项软件著作权登记,发表论文10篇。