本项目研究如何组织和索引MPEG-7描述子(即描述多媒体信息的中间数据),以实现基于内容的快速相似检索和查询。在MPEG-7标准中,为了描述文本、图像、音频和视频等多媒体信息,定义了各种各样类型的描述子,包括字符串、时间序列、高维矢量、运动轨迹、有结构的文档等。当针对不同数据类型时,人们已经提出了一些相应的索引结构,例如用倒排文件(inverted file)索引字符串,用VA-File索引较高维数的矢量(仍存在维数灾难问题)。但是,对于多媒体信息检索系统来说,可能会同时用多种不同类型的描述子来描述某一个具体的多媒体数据对象,此时不仅需要研究每一种描述子的索引结构,而且还要考虑如何合理地组织和管理各种类型的索引结构,以实现整体上的快速相似查询。
在三个方面开展了研究工作,主要包括支持高维矢量数据快速相似查询的索引结构、高层语义特征提取及统计学习算法、面向网络电视的搜索引擎系统设计开发。代表性成果有提出了新的索引结构如VA-TRIE、VAR-TREE、OVA-File等,并成功将OVA-File用于视频片段的快速相似查询;提出了镜头分割、镜头分类等视频内容结构化分析与层次化组织的新方法;提出了高层语义特征提取的新算法并研究了统计分类算法;参加视频信息搜索国际竞赛TRECVID取得好成绩;面向网络电视特定应用情形设计面向海量电视节目搜索引擎。另外,在数字水印方面,课题组还做出了较好研究成果。项目组共发表50篇学术论文,其中国际期刊论文8篇,被SCI/EI/ISTP检索30篇次;提交9件发明专利申请,其中2件获得授权;获得上海市科技进步一等奖1项。