图像不变性特征提取一直是图像检索与识别领域的研究重点,随着LBP、SIFT、MSER、Kadir等方法的相继提出,人们对这一问题的认识更加深入。现有的理论和方法追求视觉感知层面上的不变性,因而不可避免地会陷入不变性与区分性难以取舍的境地。本项目冲破把特征不变性问题局限在感知层面的传统思想,研究视觉认知下的图像不变性特征。通过感知、注意、记忆等多层次多环节的相互作用,提取在视觉感知层面上不同但在视觉认知意义下相同的特征。主要研究内容包括:闭环视觉感知模型,前馈-反馈双向注意模型,具有遗忘机制的记忆模型。本项目的特点在于将注意、记忆、学习等认知模型中高于感知层次的机制引入到图像不变特征的提取中,从而为解决图像不变特征问题开辟了新的研究思路。
Image Retrieval;Feature Extraction;vision invariant Feature;Cognitive Model;
本项目研究目标是改变把特征不变性问题局限在感知层面的传统思想,研究视觉认知下的图像不变性特征。通过感知、注意、记忆等多层次多环节的相互作用,提取在视觉感知层面上不同但在视觉认知意义下相同的特征。经过四年的科研努力,本项目的主要研究成果有在感知层面,提出了一种与CENTRIST相似的特征描述子reLBP来抽取局部特征,利用Census变换的直方图向量描述图像或者局部目标区域的特征表示;为弥补“词袋模型”的不足,本项目深入探索视觉词汇之间的空间关系和语义关系,提出了一个更高层次的图像特征表示模型BoP (Bag of Phrase)。在注意层面,主要的研究成果有考虑了不同网络图像所具有的不同的特殊性质,提出的该框架通过分析不同网络图像的特殊性质,自动地为该图像选择合适的分类模型,从而有效地融合了上述两种多媒体信息融合算法。并借鉴机器学习中迁移学习(Transfer Learning)技术,提出了一种交叉域的迁移学习(Cross-Domain Transfer Learning)的方法;在记忆和识别层面, 提出了一个通用的最大K最小(Max K-Min)分类准则。基于该准则找到的分类超平面,将有着让分类过程中最差的K个训练样本最优化的物理意义;提出了联合区域和多标签的人脸表情识别算法,一方面旨在提高AUs检测的准确率,另一方面,着重分析,区域学习和多标签学习是如何协同合作,互相促进的。在模型实现上,本算法利用基于组稀疏的特征选择方式实现区域学习,设计不同的正则项对AUs的正关系和竞争关系进行约束,最后通过ADMM (Alternative Direction Method of Multipliers)进行整体模型的求解。 在本项目资助下,项目组共发表国际期刊论文10篇,其中包括IEEE TPAMI、IEEE TMM、Neurocomputing等SCI论文7篇;发表计算机领域国际顶级会议ICCV论文1篇,CVPR论文2篇,AAAI论文1篇;在人才培养方面,培养博士生8名,硕士生6名。在国际合作方面,项目组与Carnegie Mellon University, University of California Riverside, Queen Mary University of London等知名院校建立了学术合作,取得了令人满意的效果。