语义视频搜索是在视频内容理解基础上实现的视频快速搜索过程。在当前视频资源爆炸式增长的形势下,从语义层次上实现有效的视频搜索变得越来越重要,也有利于海量视频内容的监管和安全。但由于语义鸿沟的存在,满足这种需求仍然是一个极具挑战性的课题。在底层特征和高层认知之间增加一个语义概念层能够间接地建立起底层特征与高层认知间的联系,从而缩小语义鸿沟。但现有算法存在认知模型不够完善、视频内容表示不够理想、协同训练不够有效等不足。本项目将深入研究视觉的认知机理,特别是选择性注意机制,在此基础上构建新的结合what-where信息的视觉注意模型;基于新的注意模型,从视频概念的协同训练、音视频概念融合、概念的扩展性等方面提高视频搜索的准确率,为跨越语义鸿沟提供一条可行途径。
visual cognition;attention model;video search;semantic understanding;
项目组成员来自从事视觉生理心理研究和计算机视觉研究的两个领域,积极寻找学科交叉点,根据项目原定目标,在深入研究视觉认知机理的基础上,对语义视频搜索的几个关键问题进行了深入的研究,取得了重要的进展。首先,在视频检索任务导向下,对视觉注意进行了一系列的特定条件下的眼动实验,获得了若干心理学方面的成果;同时建立了具有自由观看和有正确和错误指导语3种范式的视频眼动数据集,对推动国内外视觉注意和视频搜索等方面的研究有着积极的作用。其次,在视觉认知机理研究的驱动下,提出了将自下而上和自上而下两通路结合的视觉注意模型引入语义视频搜索框架的新思想和实现方法,实现了自然语言理解、视频内容理解和视频搜索的有机结合;同时提出了几个适合于视频搜索的视觉显著性计算模型,例如模拟视觉长期和短期记忆的适用于图像和视频的注意模型,这些模型相较于现有模型更符合眼动仪记录的真实的眼动数据。在TRECVID视频搜索任务数据集上验证了所提框架和方法的有效性。最后,除了视频分析所涉及的视觉注意,项目组在语义概念提取、不变性特征提取、目标检测、行人再辨识、以及多媒体协同处理等方面也进行了研究,并提出了一系列新的或改进的算法,取得了若干有益的研究成果。本项目共计在“应用心理学”刊物上发表论文1篇,在IEEE Signal Processing Letters发表SCI检索论文1篇、其他EI刊物 4 篇、ICPR、ICIP、ICME、VCIP、BTAS等重要国际会议15篇、其他 EI 国际会议 8篇。申请国内技术专利2项。