东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于张量表示的直推式多模态视频语义概念检测

ISSN号：1000-9825
期刊名称：软件学报
时间：0
页码：2853-2868
语言：中文
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]浙江大学计算机科学与技术学院数字媒体计算与设计实验室,浙江杭州310027
相关基金：Supported by the National Natural Science Foundation of China under Grant Nos.60603096, 60533090 （国家自然科学基金）; the National High-Tech Research and Development Plan of China under Grant No.2006AA010107 （国家高技术研究发展计划（863）; the National Key Technology R＆D Program of China under Grant No.2007BAH11B01 （国家科技支撑计划）; the Program for Changjiang Scholars and Innovative Research Team in University of China under Grant Nos.IRT0652, PCSIRT （长江学者和创新团队发展计划）
相关项目：基于时序关联共生多媒质融合分析的视频语义理解

关键词：多模态, 张量镜头, 时序关联共生, 高阶SVD, 降维, 直推式支持张量机, multi-modality, TensorShot, temporal associated cooccurrence （TAC）, higher order SVD （HOSVD）, dimensionality reduction, transductive support tensor machine （TSTM）

中文摘要：

提出了一种基于高阶张量表示的视频语义分析与理解框架．在此框架中，视频镜头首先被表示成由视频中所包含的文本、视觉和听觉等多模态数据构成的三阶张量；其次，基于此三阶张量表达及视频的时序关联共生特性设计了一种子空间嵌入降维方法，称为张量镜头；由于直推式学习从已知样本出发能对特定的未知样本进行学习和识别壕：后在这个框架中提出了一种基于张量镜头的直推式支持张量机算法，它不仅保持了张量镜头所在的流形空间的本征结构，而且能够将训练集合外数据直接映射到流形子空间，同时充分利用未标记样本改善分类器的学习性能．实验结果表明，该方法能够有效地进行视频镜头的语义概念检测．

英文摘要：

A higher-order tensor framework for video analysis and understanding is proposed in this paper. In this framework, image frame, audio and text are represented, which are the three modalities in video shots as data points by the 3rd-order tensor. Then a subspace embedding and dimension reduction method is proposed, which explicitly considers the manifold structure of the tensor space from temporal-sequenced associated co-occurring multimodal media data in video. It is called TensorShot approach. Transductive learning uses a large amount of unlabeled data together with the labeled data to build better classifiers. A transductive support tensor machines algorithm is proposed to train effective classifier. This algorithm preserves the intrinsic structure of the submanifold where tensorshots are sampled, and is also able to map out-of-sample data points directly. Moreover, the utilization of unlabeled data improves classification ability. Experimental results show that this method improves the performance of video semantic concept detection.

同期刊论文项目

跨媒体海量信息的综合检索与智能技术的研究

期刊论文 92 会议论文 32 获奖 1 专利 15

基于时序关联共生多媒质融合分析的视频语义理解

期刊论文 25 会议论文 4 专利 4

　网络多媒体智能信息处理技术

期刊论文 51

同项目期刊论文

基于混合距离树的海量书法字索引

一种基于双重距离尺度的高维索引结构

基于视频的三维人体运动跟踪系统的设计与实现

Content subscribing mechanism in P2P streaming based on gamma distribution prediction

Interactive high-dimensional index for large Chinese calligraphic character databases

半监督的三维网格模型层次分割

基于距离直方图的最优视点选择

一类等距不变量及其在三维表情人脸识别中的应用

Discovering calligraphy style relationships by supervised learning weighted random walk model

基于综合推理的多媒体语义挖掘和跨媒体检索

Image Interpretation: mining the visible and syntactic correlation of annotated words

互联网跨媒体分析与检索：理论与算法

基于图像 - 文本相关性挖掘的 Web 图像聚类方法

三角形约束下的图像特征点匹配方法

多线性子空间可伸缩视频编码方法

Semantic modeling for ancient architecture of digital heritage

图切割支持的融合颜色和梯度特征的实时背景减除方法

基于运动生物力学的三维人体运动模型

基于数据网格环境的k近邻查询

基于数据网格的书法字k近邻查询

基于分层曲线简化的运动捕获数据关键帧提取

基于影像美学原理的虚拟相机自动拍摄生成方法

基于改进稀疏场算法的水平集形状过渡

Mining semantic correlation of heterogeneous multimedia data for cross-media retrieval

Hierarchical approximate matching for retrieval of Chinese historical calligraphy character

ISU-Tree:一种支持概率k近邻查询的不确定高维索引

单目视频人体三维运动高效恢复

相机运动条件下的视频前景提取

基于特征子空间学习的跨媒体检索方法

计算机视觉与机器学习技术在三维人体动画中的应用综述

一种基于内容相关性的跨媒体检索方法

计算机辅助书法牌匾设计

一种支持海量跨媒体检索的集成索引结构

情景式跨媒体数字城市系统

多特征组合和图切割支持的物体／背景分割方法

An encoding-based dual distance tree high-dimensional index

Understanding visual-auditory correlation from heterogeneous features for cross-media retrieval

Harmonizing hierarchical manifolds for multimedia document semantics understanding and cross-media r

拼音文本驱动的任意嘴唇曲线的动画生成

UML在游戏系统分析与设计中的应用

均匀分割主曲线的三维形状描述

人体尺寸测量数据的局部特征提取方法

用于3D模型检索的扩展距离球面调和表达

基于多模态子空间相关性传递的视频语义挖掘

Random walk models for top-N recommendation task

曲面上一种等距不变量的构造

基于光点阵列的三维表面数据获取技术及实现

三维极半径矩及其在三维模型检索中的应用

跨媒体相关性推理与检索研究

非线性子空间中的运动数据编辑和风格生成

一种图像之间的颜色传输方法

基于改进的数据驱动决策树分析的3维人体运动检索

Manifold learning based cross-media retrieval: A solution to media object complementary nature

启发式全局偏序挖掘算法

镜像等距不变量的构造及其应用

Local and global approaches of affinity propagation clustering for large scale data

基于草图内容的空间拓扑数据检索方法

基于最小惯性轴及链码的图像形状描述方法

正交样条矩与三维模型检索

图像-文本相关性挖掘的Web图像聚类方法

基于多线性子空间KL变换的可伸缩视频压缩方法

Composite Distance Transformation for Indexing and κ-Nearest-Neighbor Searching in High-Dimensional Spaces

A Normalization Method of Moment Invariants for 3D Objects on Different Manifolds

Image interpretation mining the visible and syntactic correlation of annotated words

基于多线性子空间 KL 变换的可伸缩视频压缩方法

三角形约束下的图像特征点匹配方法

多线性子空间可伸缩视频编码方法

Multiple Hypergraph Ranking for Video Concept Detection

Classification by semi-supervised discriminative regularization

Tensor-based transductive learning for multimodality video semantic concept detection

Multi-modality video shot clustering with tensor representation

基于特征子空间学习的跨媒体检索方法

情景式跨媒体数字城市系统

基于多模态子空间相关性传递的视频语义挖掘

Local and global approaches of affinity propagation clustering for large scale data

跨媒体相关性推理与检索研究

非线性子空间中的运动数据编辑和风格生成

基于双向参考索引的大规模人体运动数据库的检索

Local and global approaches of affinity propagation clustering for large scale data

图像-文本相关性挖掘的Web图像聚类方法

基于多线性子空间KL变换的可伸缩视频压缩方法

面向多媒体文档的多通道检索系统

计算机角色动画制作中的可视媒体融合综述

PRISMO: predictive skyline query processing over moving objects

Index and retrieve the skyline based on dominance relationship

互联网跨媒体分析与检索：理论与算法

三角形约束下的图像特征点匹配方法

多线性子空间可伸缩视频编码方法

Multiple Hypergraph Ranking for Video Concept Detection

Multiple Hypergraph Clustering of Web Images by Mining Word2Image Correlations

RCCtrust: A Combined Trust Model for Electronic Community

三维人体运动特征可视化与交互式运动分割

局部样条嵌入的正交半监督子空间学习算法

基于关键帧的三维人体运动检索

基于特征子空间学习的跨媒体检索方法

计算机视觉与机器学习技术在三维人体动画中的应用综述

一种基于内容相关性的跨媒体检索方法

计算机辅助书法牌匾设计

情景式跨媒体数字城市系统

Adaptive Indexing of Moving Objects with Highly Variable Update Frequencies

基于多模态子空间相关性传递的视频语义挖掘

跨媒体相关性推理与检索研究

基于改进的数据驱动决策树分析的3维人体运动检索

网格模型中直纹面的提取

基于UBM降阶算法的高效说话人识别系统

基于基频的情感语音聚类的说话人识别方法

三维人脸识别研究综述

基于神经网络和遗传算法的智能夹具规划

融合时空信息的前景／阴影视频分割算法

基于轴变形的脚楦匹配方法

数据驱动的夸张动作生成

运动传感驱动的3D直观手势交互

融合手绘风格的卡通角色动画生成方法

结合动力学模拟的手绘服装动画生成

基于标记点图案的三维脚型建模与测量方法

示范表演驱动的运动数据检索方法及可用性评估

基于运动传感的书空临摹交互方式

动作与音乐的节奏特征匹配模型

基于骨架相似性的书法字检索

基于权重哈尔小波的XML包含连接估计方法

面向Web活跃用户的树型访问模式挖掘算法

一种基于容器的自组织存储模型

网络化制造环境下的产品数据版权保护方案

Local and global approaches of affinity propagation clustering for large scale data

图像-文本相关性挖掘的Web图像聚类方法

三维虚拟环境中的书法创作

一种高效的行为定向广告投放算法

基于中医药集成知识库的智能搜索

基于全局优化的图像修复及其在GPU上实现

基于构图分析的古代壁画相关度评价方法

一种面向协作标签系统的图片检索聚类方法

知识发现在古代壁画展示中的应用

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609