本项目是图像视频及多媒体理解与分析的关键问题之一,与人的主观感知信息密切相关。我们定义图像语义的结构式,提出从初级参数中检测语义结构中诸元,求出图像中各个视觉物体(VO)的语义结构诸元,应用自适应谐振理论模型从给定的语义概念集中求出与VO最匹配的语义概念。用属性神经网实现VO与语义概念的映射。从而求出VO的语义概念描述的粗范围,权系数表示语义概念与VO的描述程度。另外,人对给定图像及VO进行主观特征检测,从而求出主观感知语义诸元。用上述方法求出VO的主观语义概念描述集,反复多次。求得VO的最优语义描述。本项目提出上述模型,提出语义结构的定量表示(用语义结构的复杂度表示语义信息量)。进行深入理论分析与基本系统试验验证。并给出一些典型应用例。提出语义结构信息量是确定性系统的信息。本项目预期在上述各个问题得出创新成果。
图象/视频语义是本学科当今研究热点之一,本项目建立图象语义的结构数学模型,从信息论基本理论出发,建立结构语义的信息模型,描述图象中各个视觉物体之间的相互依存关系,看成动态的信息流,进而建立图象的进化模型,从经典的同调代数的范畴及模的理论。证明从图象结构参数空间T向感知空间I及语义空间S的态射及W必存在。本项目取心理测度函数族为映射函数。我们由已知的图象结构,定义了图象结构信息量及熵,进一步,已知结构而用不同函数W匹配得到可能的语义子集,定义语义信息量及语义熵。我们又证明,语义信息结构信息是由条件概率确定,因而图像结构信息仅为图像恢度信息的小部分,而且包含在图像信息之内。另外,我们开展了图像主/客观图像质量评估及图像情感语义的相应研究,建立了几种图像质量评估模型,特别是主观质量评估,以及无参考图像的质量评估。又基于人对图像情感的特点,参考国外已有工作,做了一些图像情感语义的研究。本课题还与其他项目合作开展了医学图像语义分类工作。通过上述研究,我们体会,本课题既是很重要而难度较高的工作,在申报时有些困难未估计到,因而有些申请书所列没有实现,有待后续研究。