随着Web2.0技术的发展,互联网上带有弱标注信息的共享视频数据呈爆炸式增长。如何对高噪声、稀疏的视频标注信息进行优化以提升视频检索性能,并进一步利用它们实现对非限定领域未标注视频的高效自动标注,是目前面临的一个重要挑战。现有工作在视频内容的有效表征、内容与语义融合、上下文信息挖掘等研究上还有许多问题亟待解决。针对这些问题,本课题拟深入研究鲁棒的多模态特征表示方法,通过相似视频搜索和语义关联挖掘来优化网络视频标签;并进一步建立重要标签和视频中镜头的对应关系,以实现对网络视频的精细标注;以此为基础构建镜头级标注的大规模视频库,利用该库研究基于上下文建模的无标注视频的高效标注方法。本课题将有力推动视频标注理论和应用的发展,为新一代网络多媒体服务和海量视频管理提供核心算法与技术。
Multimedia Retrieval;Image Annotation;Video Annotation;Video Tag Localization;
面对呈爆炸式增长趋势的数字媒体大数据,如何有效地对媒体内容进行表征进而实现语义理解是对这些海量媒体数据进行高效管理的技术途径,也是目前面临的重大挑战。本项目对多媒体内容标注进行了较深入的研究,取得了一系列创新性成果,包括基于稀疏因子表征的多标签图像分类算法、面向语义鸿沟主动学习的图像标注算法、结合语义主题挖掘和视觉相关性的视频标签定位方法、多模态特征融合的视频标注方法,以及基于几何约束的图像/视频高维索引技术等,此外,我们还构建并发布了一个大规模的视频标签定位基准数据库。这些成果发表论文22篇,其中SCI论文16篇,IEEE汇刊论文3篇。项目成果有力推动了多媒体语义标注的理论和技术研究,并为海量多媒体内容/语义检索提供了一些可行的技术方案,对相关应用系统具有借鉴意义。