长期以来图像显著性区域检测与分割、场景理解(场景分类、语义标注)被视为计算机视觉领域中两个相对独立的问题。近年来,生理学实验表明生物视觉系统依赖于选择性注意力,结合视觉记忆,快速理解场景内容,表明图像显著性,视觉记忆以及场景语义理解与联想是紧密相关的。受视觉认知机理启发,本课题拟构建基于图像显著性并结合语义数据库的图像场景信息理解与联想计算模型,即利用视觉注意力选择机制、视觉感知组织机制,即视觉显著性、区域分割模型,初步筛选、精确提取场景关键语义单元;利用视觉信息的联想记忆机制,即近似场景的语义知识迁移,标注关键语义单元;从而进一步采用概率图模型处理场景语义单元与语义主题的理解与联想过程。借助于结合外观相似性与上下文语境的概率图模型,场景信息的理解与联想被分为两个层次场景语义单元的理解与联想;场景主题的理解与联想。在理解与联想的模型基础上,课题将进一步探索场景信息语义联想的具象化过程。
saliency detection;image segmentation;semantic annotation;scene understanding;scene envisaging
课题组就视觉选择性导向的场景信息理解与联想这一主题展开了深入探索。其中,课题组重点考察了三个问题图像显著性区域的提取、显著性单元的语义标注、场景信息的理解与联想。在显著区域的提取问题上,提出了基于底层特征及稀疏编码的显著性检测模型;在显著性单元的语义标注问题上,提出了基于场景语义联想的显著性单元识别算法;在场景信息的理解与联想问题上,提出了基于组合贝叶斯网络以及基于场景语义单元联想的场景理解算法。最终,这三个问题的综合即构成了视觉选择性导向的场景信息理解与联想过程。课题组的探索取得了一系列成果,三年来总计发表文章27篇,其中SCI索引12篇,EI索引12篇,包括领域知名会议ECCV,CVPR,ACCV等。然而,课题组也深刻意识到这一探索仍然较为初步,并将在此课题及其相关课题上进一步深入挖掘与探讨。