随着计算机处理能力提高、互联网发展和人们对音频信息需求量的增加,如何利用有效的方法对海量压缩格式音频数据进行快速、精确的分类检索引起了广大研究者的关注。项目组通过三年多研究和探索,系统构建了MP3压缩域听觉谱数学模型CASM,提出了一种仿人耳对音频信息处理的预处理机制,并基于MP3压缩域听觉谱进行了特征选择,利用基于熵的相似度度量方法研究了不确定性推理过程对音频分类和检索的影响,利用熵的方法对相似度进行了评价,利用模糊-粗糙近邻算法(FRNNC)对音频进行了分类,建立了快速精确的检索方法,得到了较好的实验结果,其方法不仅简化了压缩域音频分类检索的流程,同时也为在海量压缩音频数据中提取具有良好鲁棒性的压缩域音频特征提供了新的思路。项目组共获得发明专利1项,申请发明专利5项,发表论文48 篇,其中国际学术期刊7篇,SCI收录5篇,ISTP检索3篇,EI检索41篇,并多次参与国内外合作交流。
英文主题词Compressed domain, the auditory spectrum, feature extraction, classification and retrieval