本项目交叉了图像视觉处理、计算听觉场景分析(CASA)和人类听觉系统原理,以图像视觉分析与人类听觉系统机理为新思路,研究基于CASA理论的一类新型语音分离理论与算法,以解决单通道语音分离技术中存在的多项挑战性关键问题,改进与提升语音分离系统的整体性能与实用性。项目一方面以对语音时频谱图或Cochleagram图的图像视觉性分析为突破点,研究混合语音信号中原始语音信号的组合遮掩关键性问题的图形化解决方法。另一方面围绕我们提出的人类听觉系统机理的基本概念,以计算机模型和算法对该理论进行原始创新性描述。从图像视觉分析技术与基于模型学习的CASA基本机理出发,探索研究采用这一计算模型与算法实现语音分离过程中模型间约束关系表示问题、特征提取问题和语音模式鲁棒性估计问题的有效解决方法。进一步围绕提出的两类新方法,探索基于模型学习但说话人非依赖性的语音分离系统实现过程,揭示新模型与方法的有效性和实用性。
英文主题词Speech Separation;CASA;image and vision analysis;auditory system principle;robust