本项目针对当前海量网络视频内容分析这一重大需求,提出一套完整的视频事件检测技术,包括视频事件训练数据的自动采集、多模态视频特征表示和基于上下文分析的事件学习算法。在训练数据采集方面,拟提出一种基于多重文本相似度的度量方法,对网络关键词检索结果进行过滤,进而得到高精度的事件标注;在多模态视频特征表示方面,采用图聚类方式生成视音频联合词袋,深入探索模态间的关联关系;此外,本项目将设计事件检测的上下文分析算法,利用基本概念(如目标、场景)的检测结果提高复杂事件的检测精度。该算法采用有向图来对事件-概念关系建模,以充分发掘事件-概念间的因果及共生关系。本项目的研究成果将为网络视频内容分析奠定一定的理论基础,并为网络视频检索、内容监管等一系列重要应用提供系统化解决思路。研究的成果也将通过国际权威视频分析评测活动检验其性能(如美国国家标准局的视频检索评测TRECVID)。
英文主题词Video Content Recognition;Data Collection;Feature Extraction;;