自动关联和整合互联网上存在的海量多媒体信息,是帮助人们直观、高效地理解信息和获取知识的重要途径之一。其中,将实体(如人、地点、产品)的相关文本(如新闻、游记、产品评论)可视化,即自动根据文本语义补充图像信息,是亟待解决的核心问题。现有方法难以准确提取实体及对实体的描述;且缺乏对实体、文本和图像的联合建模和关联挖掘,难以优选出充分关联语义的图像。本项目着眼于多元异构信息的关联表征,通过建立多模态概率主题模型,挖掘实体、文本和图像信息之间的关联信息,实现高质量的实体相关文本可视化1) 基于概率主题模型和自扩展实体词典,准确识别文本中的实体;2) 基于实体主题模型,从海量文本中挖掘多重实体知识,据此提取对实体的描述;3) 基于多模态概率主题模型,从多种来源的图像中优选与实体及描述语义一致的图像。本项目所研究理论与技术可应用于各种领域的实体相关文本可视化中,具有很高的学术价值和可观的经济价值。
image semantic analysis;image understanding;associated characterization;probability analysis;
在实体相关文本可视化等异构信息关联表征、语义理解及其相关内容在图像视频中的视觉信息分析方面总共发表论文40篇,其中SCI检索28篇,EI检索40篇,IEEE T-CSVT/T- Cybernetics等汇刊论文12篇。项目主要科研成果1. 提出了基于贝叶斯网络的场景语义解析模型,实现实体信息的语义理解。由于低层的视觉特征和实体信息的语义理解存在较大的语义鸿沟,无法直接从视觉特征实现实体信息的可视化。为此提出一种基于贝叶斯网络的实体信息解析模型。对视觉数据中的不同实体设计不同的语义特征,进行高层语义表达,利用贝叶斯网络学习不同语义特性对应实体的先验概率,进而完成视觉场景内实体信息的理解。2. 提出了基于差别阈值与MRF的实体显著性检测模型,实现实体的有效描述。目前多数自下而上的视觉实体显著性检测方法所采用的视觉特征往往是基于局部或全局的视觉对比度分析,但其计算出的视觉对比度与人类的主观视觉体验并不总是相符,其中的一个主要原因在于对差别阈限的相对性这一心理感受性的客观规律的忽视。基于此,通过利用差别阈值同时结合空间结构关系对实体显著性进行描述,从而达到实体的有效描述。3. 提出了基于超像素稀疏流形表达与深度融合的目标跟踪方法,实现了对实体目标行为的鲁棒建模。由于底层特征与目标的语义性之间存在不可逾越的鸿沟,易受到环境因素的干扰,而高层特征往往需要很好的认知机理建模,难以获取。因此,从目标本身的结构化表达出发,通过设计能同时弥补底层的语义性不足和高层的难提取性的表观模型,以实现目标行为的最优描述。4. 提出了基于结构分析的实体语义信息与异常行为关联方法,实现了实体信息的有效分析。目前异常行为分析或者需要有效的追踪器获取轨迹信息,或者需要标定大量正常训练数据,这些方法在实际环境中适应性不强。为此,提出了一种基于结构分析的语义信息与人群行为关联方法,能够有效提取场景中实体之间固有的物理结构关系,准确表述实体语义特性与场景事件的复杂协同关系,实现实体语义信息与异常行为的精确关联。