互联网上的海量音乐信息促使产生了进行音乐自动匹配的数字音频指纹技术,但是现阶段该技术的典型算法与人耳识别功能相比仍然存在巨大缺陷。本课题主要贡献是设计了以下三种鲁棒音频特征在严重失真环境下进行音乐识别(1)在音乐语谱图上计算SIFT描述子作为鲁棒音频特征,在检索片段被严重时间伸缩或变调时仍然能以80%以上的准确率识别数据库中的原始版本;(2)在MP3压缩域半解压状态分别计算MDCT频谱熵和听觉图像上的Zernike矩作为鲁棒音频特征,对一般音频信号处理得到了很强的鲁棒性。三年时间中本研究完全达到了预期目标,在鲁棒音频识别技术方面取得了突出成绩,共发表论文14篇,其中在国际顶级会议ACM MM和ACM SIGIR上发表全文和短文共5篇,EI检索国际重要会议1篇,国内权威期刊1篇,国内半权威学报2篇,核心期刊5篇。此外申请专利1项,毕业研硕士究生3人,获得上海市自然科学二等奖一项排名第三。
英文主题词Audio identification; Robustness, Audio feature; Audio spectrogram