基于张量稀疏性分解的视频语义理解机制研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于张量稀疏性分解的视频语义理解机制研究

项目名称：基于张量稀疏性分解的视频语义理解机制研究
项目类别：青年科学基金项目
批准号：61100084
申请代码：F020508
项目来源：国家自然科学基金
研究期限：2012-01-01-2014-12-31

项目负责人：刘亚楠
依托单位：浙江财经学院
批准年度：2011

中文摘要：

随着数字影像设备以及互联网的迅速发展，数字视频的数量呈几何式增长。如何快速有效地管理、浏览、检索和使用视频信息成为一个具有挑战性的问题。视频是包含图像、音频和文本等多媒质数据的复杂媒体，传统的视频表达将各模态特征向量简单拼合为高维向量，不仅会导致"维数灾难"和"过压缩"等问题，而且在一定程度上减弱了视频中多种模态特征之间的时序关联共生性。本项目将针对视频所包含的三种模态高维特征数据，将视频镜头表示为3阶张量；同时，考虑到视频的时序关联共生特性，引入压缩感知和稀疏表达机制，探索张量稀疏(非负)分解、高维多阶张量镜头的降维和子空间嵌入、以及多标签信息和未标记数据的利用等核心问题。结合已有工作基础，面向开源视频数据集和互联网分享视频，研发视频语义理解原型系统。本项目将为视频分类、数字图书馆、多媒体检索和视频监控等领域的应用提供理论成果、算法基础和实现技术，具有重要研究价值和应用意义。

中文主题词：视频语义理解；多模态；张量分解；稀疏表达；多标签

英文摘要：

video semantic understanding；multi-modality；tensor decomposition；sparse representation；multi-label

英文主题词： video semantic understanding；multi-modality；tensor decomposition；sparse representation；multi-label

结论摘要：

在现今这个信息时代，海量视频数据的有效存储、管理、传输、浏览、检索和使用是一个挑战性问题，也是当前学术和企业界的热点研究课题。视频数据蕴含了丰富的语义信息，视频也是一种时序复杂媒体，包含了图像、音频和文本等多媒质数据。本项目研究了张量稀疏性分解在视频语义分析和理解中的理论及应用。首先，为了避免传统拼接向量带来的“维度灾难”和“过压缩”问题，并加强视频中多模态特征的时序关联共生特性，我们将视频中所包含的同一类型媒质数据特征表达为张量的一阶。此外，引入压缩感知和稀疏表达机制，探索了张量稀疏(非负)分解、高维多阶张量镜头的降维和子空间嵌入、以及多标签信息和未标记数据的利用等核心问题。基于以上分析，本项目完成了以下创新工作。1. 基于稀疏性分解的张量视频镜头分类算法。2. 基于融合组稀疏表示的方法对视频和图像进行分类。3. 基于张量稀疏分解的多标签视频标注。4. 基于堆栈压缩自动编码器的多模态视频分类。上述工作在理论和方法上取得了达到国际前沿水平的成果，在视频分类、多媒体检索和视频监控等方面有很好的应用前景。本项目共发表论文10篇，其中国际期刊和国内一级学报论文9篇、国际会议论文1篇，并且由SCI收录5篇、EI收录5篇。

成果综合统计