位置:成果数据库 > 期刊 > 期刊详情页
基于图像可听化的视听信息融合方法研究
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:2013.11
  • 页码:76-79
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]河北工业大学计算机科学与软件学院,天津300401, [2]河北工业大学机械工程学院,天津300401
  • 相关基金:国家自然科学基金项目(51175145).
  • 相关项目:基于视/听信息融合的复杂机电系统运行状态监测原理与方法研究
中文摘要:

在传统的视听双模态语音识别系统的研究中,经图像处理后的视觉特征往往具有数据量大、重要特征丢失等问题。针对这些问题,拟采用图像可听化技术对视频图像进行特征提取。以遗传算法优化的BP神经网络为融合模型,对视频、音频特征进行特征级融合。实验结果表明,经过图像可听化处理后视觉特征包含了一定的语音信息,在噪声环境下的识别效果比较稳定,神经网络的融合模型提高了系统的鲁棒性。

英文摘要:

While studying the traditional speech recognition system with audio-video dual mode, we found that the visual characteristics "after image processing have the problems of large amount of data and important characteristics lost. Aiming at these problems, we plan to apply image sonification technology to extracting the characteristics of video image. By using BP neural network in genetic algorithm optimisation as the fusion model, we fuse the characteristics of audio and video at feature level. Experimental results show that, after being processed by the image sonification, the visual characteristics contain certain speech information, its recognition effect is stable in noise environment as well. The fusion model of neural network improves the robustness of the system.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463