随着数字影像设备以及互联网的迅速发展,数字视频的数量呈几何式增长。如何快速有效地管理、浏览、检索和使用视频信息成为一个具有挑战性的问题。视频是包含图像、音频和文本等多媒质数据的复杂媒体,传统的视频表达将各模态特征向量简单拼合为高维向量,不仅会导致"维数灾难"和"过压缩"等问题,而且在一定程度上减弱了视频中多种模态特征之间的时序关联共生性。本项目将针对视频所包含的三种模态高维特征数据,将视频镜头表示为3阶张量;同时,考虑到视频的时序关联共生特性,引入压缩感知和稀疏表达机制,探索张量稀疏(非负)分解、高维多阶张量镜头的降维和子空间嵌入、以及多标签信息和未标记数据的利用等核心问题。结合已有工作基础,面向开源视频数据集和互联网分享视频,研发视频语义理解原型系统。本项目将为视频分类、数字图书馆、多媒体检索和视频监控等领域的应用提供理论成果、算法基础和实现技术,具有重要研究价值和应用意义。
video semantic understanding;multi-modality;tensor decomposition;sparse representation;multi-label
在现今这个信息时代,海量视频数据的有效存储、管理、传输、浏览、检索和使用是一个挑战性问题,也是当前学术和企业界的热点研究课题。视频数据蕴含了丰富的语义信息,视频也是一种时序复杂媒体,包含了图像、音频和文本等多媒质数据。 本项目研究了张量稀疏性分解在视频语义分析和理解中的理论及应用。首先,为了避免传统拼接向量带来的“维度灾难”和“过压缩”问题,并加强视频中多模态特征的时序关联共生特性,我们将视频中所包含的同一类型媒质数据特征表达为张量的一阶。此外,引入压缩感知和稀疏表达机制,探索了张量稀疏(非负)分解、高维多阶张量镜头的降维和子空间嵌入、以及多标签信息和未标记数据的利用等核心问题。 基于以上分析,本项目完成了以下创新工作。1. 基于稀疏性分解的张量视频镜头分类算法。2. 基于融合组稀疏表示的方法对视频和图像进行分类。3. 基于张量稀疏分解的多标签视频标注。4. 基于堆栈压缩自动编码器的多模态视频分类。上述工作在理论和方法上取得了达到国际前沿水平的成果,在视频分类、多媒体检索和视频监控等方面有很好的应用前景。 本项目共发表论文10篇,其中国际期刊和国内一级学报论文9篇、国际会议论文1篇,并且由SCI收录5篇、EI收录5篇。