随着网络视频的飞速增长,基于概念的视频检索是网络视频搜索和监管不可或缺的关键技术,具有重要的研究价值、社会效益和广阔的市场应用前景。本项目面向大规模网络视频,对基于概念的视频检索中三个关键问题即语义概念集的建立与概念检测、以及查询分析进行研究(1)针对目前人工建立大规模语义概念集和人工标注的困难,拟充分利用覆盖面广、内容丰富的网络视频用户标签,提出一种大规模语义概念集的自动构建方法;(2)针对网络视频的开放性导致的数据分布差异,重点研究视频语义概念检测中的跨域迁移学习,拟提出一种基于稀疏子空间的跨域迁移学习方法,以解决传统检测方法中概念模型的推广性难题;(3)针对大规模语义概念的查询映射问题,拟研究高效的查询分析方法。在此基础上,构建实验验证系统,参加国际视频检索评测验证系统,以期在基于概念的大规模网络视频检索关键技术方面取得突破,从而促进多媒体信息检索技术的发展。
Video Retrieval;Cross Domain Transfer Learning;Concept Detection;Concept Set Construction;Query Analysis
在为期四年的项目实施期内,我们严格按照项目计划目标和内容,对基于概念的视频检索中三个关键问题即语义概念集的建立与概念检测、以及查询分析进行研究。(1)在语义概念集建立方面,我们研究了基于标签的大规模语义概念集自动构建方法,提出了基于稀疏表达的半监督学习方法、融合视觉和文本深度学习的多模态视频标签定位方法,以及基于离散稀疏模型的样本选择方法;(2)在语义概念检测识别方面,重点研究视频语义概念检测中的跨域迁移学习,提出一种基于稀疏表示的跨域迁移学习方法,以及基于卷积神经网络(CNN)的稀疏集成学习方法;(3)在查询分析方法方面,通过挖掘查询文本和视觉不同模态信息之间的关联,提出了一种基于视觉语义深度嵌入的视频缩略图生成方法和基于用户点击信息的多模态视觉检索重排序方法。在此基础上,构建了实验验证系统,2015年参加了国际著名的ImageNet大规模视觉识别挑战赛,取得了优异成绩,扩大了国际学术影响力;研发的多项相关系统已经在多家单位得到推广应用。