位置:立项数据库 > 立项详情页
基于声音-视觉声源定位的麦克风阵列语音增强技术研究
  • 项目名称:基于声音-视觉声源定位的麦克风阵列语音增强技术研究
  • 项目类别:青年科学基金项目
  • 批准号:60502041
  • 申请代码:F010302
  • 项目来源:国家自然科学基金
  • 研究期限:2006-01-01-2008-12-31
  • 项目负责人:张军
  • 负责人职称:副教授
  • 依托单位:华南理工大学
  • 批准年度:2005
中文摘要:

本项目的研究工作主要集中在多数据流融合模型、鲁棒语音识别和多路音视频信号传输三个方面。在多数据流融合模型方面,提出了一种基于特征分量输出概率加权的数据流结合新方法,从理论上分析了特征分量输出概率加权对识别的影响,并结合丢失数据技术的基本原理提出了基于边缘化模型、基于软判决模型等几种数据流结合新方案,实验结果表明新算法均能根据噪声环境的不同自适应地调整数据流对识别影响的大小,其性能显著优于传统的多数据流识别方法;在鲁棒语音识别方面,提出了一种新的动态模型参数补偿方法,在此基础上推导了包括信噪比依赖的非均匀谱压缩语音特征、基于听觉能量曲线和非均匀谱压缩的语音特征等鲁棒语音特征的失配函数和补偿公式,并提出了基于上述鲁棒语音特征模型补偿的几种语音识别新算法,实验结果表明新算法的性能均比目前流行的模型补偿方法有显著的提高;在多路音视频传输方面,对分布式信源编码、基于超宽带的音视频无线传输技术等方面进行了研究,在此基础上针对目前阵列音视频信号采集和播放中有线连接的不便提出了数项多路音视频信号的无线传输新技术,并申请了相关的国家发明专利。

结论摘要:

英文主题词Multi-stream fusion, Robust speech recognition, Multi-channel audio/video transmission


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 24
  • 4
  • 6
  • 0
  • 0
相关项目
张军的项目