随着网络和计算机技术的飞速发展,网络上已经存在了海量的图片数据。这些数据包含了重要的信息,并且使以下应用成为可能图片百科全书、移动视觉搜索、地标搜索、产品搜索等。作为这些数据管理、分析与应用的基础,海量图片搜索目前仍然存在两个问题检索精度不高和检索速度较慢。本项目将结合发掘网络图片的特点,提出视觉单词学习和图片几何编码来提高海量图片检索的精度和速度。针对传统视觉单词特征存在的描述能力差、噪声多等问题,本项目将通过挖掘图片局部特征之间的空间位置信息、尺度信息和语义信息学习具有判别力和语义描述能力的视觉单词特征上下文视觉单词。同时,由于图片的全局空间信息对图片视觉匹配和识别具有重要作用,本课题将提出图片几何编码算法来获得图片的全局空间信息并根据该信息提高图片检索的查准率和查全率。本项目将根据提出的算法建立一个能在上亿数量级图片库中进行实时图片检索的原型系统。
Large-scale image search;visual codebook;image matching;image indexing;image local descriptor
我们对海量图片检索中的四个关键步骤进行了深入研究,成果总结如下 1. 提出了新的二进制局部特征Edge-SIFT、COGE和USB。Edge-SIFT记录了边缘空间信息,用更紧凑的表达实现了比SIFT更好的视觉区分能力。24比特的USB可以跳过特征量化直接用于图片索引和检索中,极大的提高检索速度。COGE可以更好的描述空间信息,比已有二进制特征有更好的图片匹配性能。相关成果发表于权威期刊T-IP上。COGE获PCM2013会议最佳论文奖。 2. 对于视觉码本构建和量化,提出了BSIFT、SCH、二进制视觉词组、PVW和ObjectPatchNet。BSIFT由原始SIFT描述子矢量转化而来,可适应倒排索引结构、进行无码本训练的快速图像数据库索引。针对移动搜索应用,我们提出了一种无码本量化的SCH方法,可以自适应的对图像数据库进行快速索引,并保证检索精度。二进制视觉词组结合多个二进制局部特征和其邻域空间信息来描述图像局部信息。受近复制图像匹配的启发,我们提出了对特定视觉目标,进行基于相似度传递的视觉码本训练,得到了一组具有高区分性的主视觉单词集PVW,并将其应用于快速的特定目标检索中。ObjectPatchNet由对物体具有区分能力的图像块组成,同时含有视觉和语义信息,在图片语义检索和标注中表现出了很好的精度和速度。相关工作分别发表于顶级国际会议ACM MM2012, 和权威期刊T-MM、T-IP、CVIU、MMSJ, 并获ACM ICIMCS2012会议最佳论文奖。 3. 对于图片索引,提出了语义信息共索引和基于SuperImage的图片索引。传统基于局部特征的倒排索引不能反映图片语义相似性,具有很大的局限性。我们提出的索引方法可以将局部特征、语义或类别信息相似的图片组织在一起,在不改变检索速度和检索框架的前提下极大的提高图片检索结果的语义一致性。相关工作发表在计算机视觉顶级会议ICCV2013上。 4. 图片检索后处理一般采用对初始检索结果图像的匹配局部特征进行几何校验,剔除误匹配特征。现有方法一般基于RANSAC思想,计算复杂度高,难以保证实时性。我们提出对图像局部特征空间几何上下文进行编码,实现了对几何上下文的紧凑简洁的表达、快速的几何校验。另外,我们还提出结合多点空间信息和多级空间验证来提高检索性能。相关工作发表在权威期刊TOMCCAP和JETCAS上。