发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。目前可视化语音合成主要包括可见发音器官,本课题是要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本研究将利用由超声仪、高速摄像头等设备组成的多模态数据采集系统,记录发音器官的运动,并建立保证各个模态数据间同步和融合的方法。利用语音学知识作为约束来解决从高噪声的超声图像中自动提取发音器官边界等特征的难题。利用生理发音模型用仿真拟合的方法从超声图像中重构完整声道形状。最后,利用隐马尔科夫模型生成的参数轨迹来进行图像拼接单元的选取,合成基于观测图像的发音器官运动视频。
Speech production;Speech synthesis;Articulatory movement;Vocal tract model;Ultrasound image processing
发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。在语音教学中,一直以来老师都要教授所要发音的舌位。如果在学习中能看到标准发音人的舌头、唇部运动并与自己的发音器官运动进行比较, 必将大大提高语音学习的效果。 同样,对于有构音障碍的人,在语音训练中如果能够把自己发音器官与正确发音运动做比较必将大大提高语音矫正的效果、缩短语音矫正时间。然而实现基于真实图像的发音器官的可视化合成一直以来是个难点问题,主要因为不可见发音器官(如舌头,上颚等)观测困难、从记录的图像中进行特征自动提取困难、观测的声道形态有时不完整等原因。本课题对这些问题的解决方法进行了研究,从而实现基于观测数据来合成发音器官运动。目前可视化语音合成主要包括可见发音器官,本课题主要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本课题建立了由超声仪、高速摄像头、喉头仪和电磁发音记录仪(EMA)等组成的生理语音数据采集系统并开发多模态数据采集控制软件。基于该采集系统,本课题采集并构建了汉语普通话说话人数据库以及藏汉双语多模态生理语音数据库。此外,课题组赴日本国际电气通信基础技术研究所完成人体发音过程核磁共振图像(MRI)数据的采集工作。由于超声图像是高斑点噪声图像,本课题首先对其进行图像降噪处理从而提高边界自动提取的效果。虽然超声图像包含舌头发音时的主要形态,其记录的舌头表面信息却不完整,对此,在本课题中将超声图像、与EMA数据于空间进行融合进而驱动MRI图像以及生理发音模型,从而实现完整内部声道的构建。此外,课题组利用机器学习对超声图像与语音数据进行训练,从而得到超声图像与音频之间的映射模型。本课题建立了多模态生理语音数据采集系统、数据库以及对应生理、声学模型,不仅实现了发音器官可视化,为语言学习、语音康复提供帮助,更有效促进语音生理层面的研究,从而为研究生理发音机理, 进而促进语音处理的研究提供数据基础。