人的行为分析与语义描述是计算机视觉研究的前瞻性方向。传统的行为分析方法主要关注于单一视觉对象(即人体)的表观与运动特征,而较少考虑周围场景和交互物体等信息,缺乏较为完善的将人体、场景、物体等多种视觉对象统一建模的行为分析理论与计算框架,以及相应的模式表达和分析算法。本项目突破传统方法的局限性,以获取"人处于哪种环境、在做什么、怎么做"的语义描述为目标,研究构建融合"人、物、景"多种视觉对象、在"底层视觉、中层属性、高层语义"多层次进行行为分析与描述的计算框架。在该框架下,具体探讨视频中多视觉对象的联合检测与分割,以及相应底层视觉特征的提取与表示。进而探索不同视觉对象、不同属性之间的关联模型,并基于此研究中层属性特征的学习与表示。最后基于多视觉对象的各层特征表达,研究嵌入多层间信息传递映射及高层语义相关模型的行为语义推理。本项目对推动行为分析与语义描述的理论发展以及扩展其应用具有重要的意义。
英文主题词video analysis;activity analysis;activity description;multiple visual information;multiple level feature