在实际应用中,智能机器人的听觉系统检测到的声音信号往往是多个声源信号及其滤波和延迟信号的混合,为了提高机器听觉系统的语音识别能力,必须采用卷积盲源分离的方法先将源信号从它们的混合信号中分离出来。为满足机器人听觉系统的实际应用需求,使盲源分离算法向实用化发展,本课题在充分研究现有的卷积盲源分离算法的基础上,研究利用视听觉信息融合的方法来解决现有的卷积盲源分离算法在实际应用中存在的问题,如分离信号中的排序和幅度的不确定,欠定卷积混合信号盲分离和移动源混合信号盲分离等问题,使机器听觉系统能自动完成语音混合信号的盲分离,为盲源分离的实用化提供具有理论价值和实际价值的研究成果。
blind source separation;compressed sensing;audio-visual;sparsity representation;
本项目在信号分离领域引入了视觉信息,实现了基于视听觉信息融合的双模式盲源分离。研究了基于学习的图像语音信号的稀疏表示及其特征提取的基本方法,并给出了构建视听觉信息融合模型的有效实现方法。利用视觉信息,如声源的位置信息、嘴唇的形态作为辅助信息,研究了消除目前卷积混合盲源分离算法中的排序和幅度不确定问题的方法,为信号盲分离提供了一种双模式的分离方法。课题组已发表学术论文22篇,其中SCI期刊论文9篇,EI论文9篇,授权中国发明专利3项,申请中国发明专利3项,获批5项相关国家级和省级科研项目。