视频数据中包含了人物、对象、事件和故事等丰富语义。近年来,视频分析与检索成为国际国内学术研究热点。一般而言,视频中包含了图像、听觉和文本等三种异构模态数据。传统视频分析处理中把从这三种模态数据中提取特征拼合成向量,造成了“维数灾难”和“过压缩”问题,也丢失了图像、听觉和文本所固有的上下文关联属性。本课题针对视频所包含异构多模态数据具有时序关联共生特点,重点进行了基于张量镜头的视频表达及其分析处理理论和方法、多模态子空间相关性传递、视觉-听觉异构特征相关性学习和视频伴随标签分析和视频帧结构性分析等方面的研究。课题组一共发表论文21篇(含录用论文4篇),其中包括IEEE Transactions on Multimedia、Neurocomputing和软件学报、计算机研究与发展、计算机辅助设计与图形学学报以及多媒体领域顶级学术会议ACM Multimedia等,申请国家发明专利4项,利用取得的研究成果,构建了TVNews检索平台。
英文主题词Contextual Temporal Associated Co-occurrence; Machine Learning; Video Retrieval; Multi-modality