本研究课题拟采用多因素特征子空间分解进行多语言语音信号处理,探索语言无关的语音基元库,研究基于识别-合成统一建模的多语言语音分析与综合处理方法。多语言语音信号包含丰富的语言、说话人和情感等个性信息,这些因素的特征子空间互相交织不利于识别-合成框架下的语音信号处理,而张量分解作为一种多因素分析方法在处理高阶信号方面具有独特的优势。通过将语音信号表示为高阶张量,可以对不同的特征在各自的子空间中分别进行处理,利用张量分解提取语言无关的特征参数,并分离出语音个性化特征。在此基础上,研究不同语言之间的声学共性,设计出与语言无关的非规则语音基元库。结合多因素特征子空间分解机理以及语言无关的基元库,研究并测试基于识别-合成框架的极低速率语音编码算法对多语言的可扩展性,对于多语言语音处理以及识别-合成型语音编码的压缩极限和普适性研究具有重要的理论和实际意义。
Multifactor analysis;tensor decomposition;speech recognition;speech synthesis;speech unit
本项目目标是将多因素特征子空间分解机理用于语音信号的分析与合成,为此调研多因素分析理论在信号处理领域中的应用情况,深入理解张量分析的理论基础,研究张量分解在语音信号处理中的应用,已完成的工作内容包括建立语音识别和合成所需的训练和测试数据库、设计基于HMM的语音识别-合成系统模型、利用张量分解进行语音信号特征提取、探索语言无关的语音新基元、研究针对识别端输出参数的编码方法等。本项目利用HTK和HTS工具建立了连续语音识别-合成系统,完成汉语普通话和英语的测试,系统可以正常运行并获得可接受的识别与合成结果;为了充分表征语音信号,本项目提出了一种基于张量分解的特征提取方法,解决了传统语音特征只包含语音信号部分信息的问题;本项目还定义了一种用于语音合成的新基元,该基元同时保留了音节内和音节间的协同发音现象。多语言的语音分析与综合问题目前仍然在探索阶段,距离实际系统应用还有一定的距离,而张量分析作为一种新的研究思路和新方法值得继续探讨。