可视媒体理解领域的关键问题之一是海量视觉特征的高效匹配。本课题针对局部特征集合中高维、多量特性带来的存储、计算复杂度过高的问题,研究海量局部特征的高效索引与匹配。局部特征集合的紧致表示是高效匹配的关键。本课题首次提出运用信息几何学中的统计流形方法,对局部特征集合建立统计模型,采用费舍尔信息距离匹配概率密度信息,实现统计分布信息的低维流形嵌入,生成局部特征集合的紧致描述向量。在此基础上,建立从集合整体到局部元素的层次化索引结构和计算模型,实现局部特征的高效匹配。统计流形方法能够实现高维统计分布信息的高效表达,而层次化模型符合人类的视觉认知习惯。本课题将二者有机结合,其特色是能够降低局部特征的存储和计算复杂度、提高匹配效率,并且能够满足海量可视媒体应用对检测精度和检索速度的不同需求。
visual feature extraction and expression;statistical manifold learning;high-dimensional indexing;hashing;nearest neighbor search
视觉媒体智能处理领域的关键问题之一是海量视觉特征的高效表达与计算。课题针对局部视觉特征海量、高维特性带来的存储、计算复杂度过高的问题,研究海量视觉特征的数据组织与计算方法,主要包括视觉特征提取与表达、高维索引、最近邻查询、局部视觉特征集合高效匹配等。课题重点对海量复杂高维数据的高效计算,尝试从三个层面来对其进行紧致描述维数缩减、数据尺寸缩减、寻找影响力最大的数据点。处理的数据类型包括高维向量,高维向量集合,稀疏矩阵(图)。在对复杂高维数据进行紧致描述的基础上,进一步研究海量数据的高效组织与计算,主要包括基于哈希和矢量量化的高维索引技术、最近邻查询技术等。课题取得的主要成果包括(1) 采用统计流形学习方法,提出了一种针对视觉直方图数据(BOF和SPM)的维数缩减框架,在不降低图像特征的表达能力的前提下,将原始高维直方图数据嵌入到合适的低维欧氏空间,构建更为紧凑且具有强辨识能力的BOF表达模型。该成果的一个重要发现是,对于高维BOF数据,紧致的低维表达能取得更好的分类和查询效果。进一步,可以对降维后的BOF特征进行哈希表示。(2) 针对高维数据的哈希表示,定义了一种新的复合LSH键值距离度量方式来估算真实距离,通过设计一种哈希键值的线序机制实现原始高维数据的有序组织,保证了候选数据的局部分布,大大地改善了近似最近邻查询效率。其重要意义在于,解决了LSH方法进行近似最近邻查询时的I/O性能瓶颈,在保证查询精度的基础上极大地提高了最近邻查询速度;(3) 分别通过改善全局视觉特征提取和优化SVM学习方案提高了视觉特征匹配效率。一方面,鉴于局部视觉特征的高维、多量特性对图像匹配效率造成的影响,提出了一系列基于矩分析的全局视觉特征提取方法,提升了视觉特征的表达能力;另一方面,设计了一系列优化的SVM模型,改善了视觉特征学习机制;(4) 课题将对高维数据有效表达的研究延伸到社交媒体网络中,将图数据看成是稀疏矩阵,在对节点复杂高维特征矩阵分析的基础上,设计了一系列有效模型来发现影响力最大化的节点。本课题的研究对降低海量高维数据的存储和计算复杂度,并且有效应用于视觉分类、识别和检索等具有很好的理论意义和应用价值。本课题取得了很好的理论研究和应用成果,其中录用或发表学术论文15篇,授权或公示国家发明专利5项。学术论文包括2篇顶级CCF A类会议论文,以及10篇SCI索引论文。