随着近年来图像数据量的爆炸性增长与图像检索需求的日益复杂与专业化,无论是基于人工标注的还是基于内容的图像检索技术都越来越难以应对这些考验。因此如何高效,准确地完成用户对图像数据的检索要求是我们面临的一个非常紧迫的问题。本项目以语言模型及交互式用户相关反馈方法为工具,以建立图像数据库的自动语义标注及多模式图像检索系统为目标,着力解决图像数据库的自动语义标注与高效、快速的图像检索。研究包括图像语义标注模型训练样本的优化方法,基于语言模型的图像自动语义标注方法及相关技术,多模式图像检索的统一检索模型框架,基于长期学习的多模式图像检索用户相关反馈方法等。并在此基础上设计与实现一个图像数据库的自动语义标注平台系统及相关工具,实现相应的多模式图像检索原型系统。
图像语义的自动标注、检索与索引技术具有重要的理论意义与应用前景。本课题重点对基于生成语言模型的图像标注、图像检索相关反馈以及高维数据索引技术进行研究。为了解决模型稀疏性问题,提出了基于新的离散化方法的图像文档模型、多元语言模型图像标注以及主题平滑方法,提出了基于概念的扩展生成语言模型的图像标注以及包含判别分析的生成模型标注方法。在多模式检索用户相关反馈方面我们提出了基于长期学习的用户检索模型,研究了基于超平面查询的Web图像检索中的主动学习技术;随着工作的深化,我们的研究领域扩展到了基于度量空间的高维索引方面,提出了度量空间B+-tree高维索引中的聚类环最优分解方法,提出了一种新的混合高维B+-tree索引。通过三年的努力工作,课题组共发表和录用研究论文18篇以上(SCIE 3,EI 10),其中6篇论文在相关领域主要的国际会议上发表(录用),4篇论文在国内权威刊物发表(录用)。实现了一个Web图像标注原型系统。