多人交互行为分析在智能监控、视频检索及虚拟现实等方面有着广泛的应用前景,是目前计算机视觉及模式识别领域的研究热点之一。本项目采用计算机视觉的方法围绕多人交互行为分析的关键问题展开研究,包括交互行为分析的计算框架、表征交互行为的特征的提取与描述、连续原子行为识别、交互行为建模。我们建立引入反馈机制的分层计算框架,该框架通过高层语义反馈提高特征表达的可靠性,增强原子行为识别的准确性从而提高多人交互行为分析的性能;提出基于RGBD(颜色+视差)信息的多人体鲁棒跟踪方法;研究局部时空兴趣点及基元的特征描述方法以更好的表达多人交互行为;采用判别式模型识别连续单人原子运动;最后提出嵌入多个子事件时序关系的随机上下文无关文法建模多人交互行为的方法,并以最小描述长度准则和最大互信息准则自动学习事件的新规则。本项目对交互行为分析的理论发展与应用具有重要的科学意义。
computer vision;multi-personal interaction;atom action recognition;human tracking;
多人交互行为分析与理解是计算机视觉和模式识别领域的热点问题,在智能监控、视频分析、虚拟现实等领域有着广泛的应用。本项目采用计算机视觉的方法围绕多人交互行为分析的关键问题展开研究,包括人体跟踪、表征交互行为的特征提取、连续原子行为识别、交互行为建模。(1)我们提出了基于语义知识反馈的三维人体姿态估计框架,利用人体运动的高层语义知识自上而下的对人体姿态估计进行指导,减少了单目图像三维姿态估计的多义性和不确定性。(2)我们提出一种层级潜变量空间中的单人行为识别方法,它基于人体自身的生理学结构,构建人体运动的层级潜变量空间,并在该空间中采用聚类技术提取各个人体部分的运动模式。(3)我们研究基于时空兴趣单的动作识别方法,提出了时空兴趣点的多尺度时空分布词袋模型。该模型子视频中不同时空尺度的局部区域内,对兴趣点的时空分布信息进行建模,从多个层次描述了兴趣点之间的时空上下文关系。同时利用时空兴趣点的表观词袋模型对兴趣点的表观信息进行建模。(4)我们提出了一种基于动作关系描述子“交互短语”的交互动作识别方法。交互短语是对交互动作的语义描述子,表达了交互双方之间的运动关系。交互短语从多个角度对交互动作进行刻画,而且还提供了较动作上下文更加丰富的上下文信息——短语上下文信息,我们提出的方法将交互短语作为中层特征,帮助跨越底层特征和高层语义之间的语义鸿沟,提高识别准确率。