为了更高效地访问、管理和利用计算机中越来越多的音频资源,人们迫切地需要基于内容的音频检索技术。本项目以提高检索速度为主要目标,重点研究音频检索预处理技术、动态音频流的实时检索技术、静态音频文件的索引构建技术和自动音乐标注技术。本项目提出了多种音频预处理和检索方法,即基于贝叶斯信息准则修正的距离变化走势分割法、基于音频分类的特殊场景识别方法、基于分段的动态实时音频检索方法、支持高效索引表示的混淆网络快速生成方法、基于否定性判定的二级索引与检索方法、基于矢量量化的弦乐颤音自动分析和检测方法、基于两级神经网络的哼唱特征提取方法和基于谐波结构信息的自动音乐标注方法等,以满足不同语义层次及不同应用场合的需求。研究了音频分类、分割和识别等音频检索预处理方法,为准确提取音频语义、构建有效索引提供有力支持;对于不适于利用索引加快搜索速度的动态音频流检索,研究了快速检索的理论模型和方法;对静态音频文件,研究了适合快速检索的索引方法和降低索引规模的高效算法;对富含语义信息的音乐数据进行分析,研究了特征提取和自动标注等方法。
英文主题词audio information retrieval; preprocessing; real-time retrieval; index; music transcription