计算机理解人的行为方式是未来计算机技术发展的趋势,具有广泛的应用前景和实际应用价值。本课题以视频序列中的人体行为识别作为研究课题,旨在提出一种适用于复杂环境下、复杂人体行为的通用识别系统并应用于实际,主要研究内容包括(1)局部特征提取和视觉词典学习,拟提出基于黎曼流形的协方差特征和金字塔词汇树;(2)从三个层次进行视频内部上下文信息挖掘,包括邻近分布、轨迹和点云特征,更准确的对行为进行建模;(3)拟提出基于上下文融合策略的多特征融合方法建立一个适用于复杂环境下、复杂人体行为的行为识别方法;(4)利用行为识别技术的研究成果开发两个典型的实验验证系统智能监控中的异常行为检测和基于内容的视频检索系统,行为识别研究可以满足智能监控中自动实时报警的迫切需求,行为识别研究在视频检索当中的应用可以更好地发挥个性化的视频服务功能。本课题的研究具有很高的理论价值和实际意义。
action recognition;context learning;feature fusion;action detection;
本项目针对复杂、真实场景下的复杂人体运动,主要研究包括视频序列的局部特征提取、视觉词典的学习、上下文信息挖掘、多特征的融合等,建立一个系统的、通用的、准确的行为识别框架。针对上述研究内容,我们开展了一系列的工作,取得了以下主要研究成果。(1)提出了一种基于对数欧氏黎曼度量的协方差时空区域描述子,它提供了一种对立方体内的底层特征的新的融合方式,能够同时融合多种类型的像素级特征,表达力强;采用对数欧式黎曼度量进行距离计算,维度较低,计算简单。(2)提出了一种基于金字塔表示的多尺度结构词汇树,通过对训练特征向量集逐级聚类建立了一个金字塔状的词汇树来对局部时空特征进行建模,既能区分类间的差异又能容忍类内的变化;另外,我们考虑了局部特征的时空信息设计了一个稀疏的时空金字塔匹配核来度量视频序列间的相似度。(3)提出了一种基于方向时空共生矩阵的视频上下文学习,挖掘了局部时空特征之间的时空亲近分布来刻画行为类的空间几何方面的内容,同时,求得的时空共生矩阵也刻画了行为类的表观特征;并且,提出一种分层金字塔结构来构建共生特征内部关系模型,解决了传统共生矩阵忽略共生特征内部关系的问题。(4)提出了一种基于点云特征的视频上下文学习,从兴趣累积形成的点云中提取了一种新的全局特征,避免了构造局部描述子和词包等,以及这些步骤引入的误差;经数学推导和实验两方面,证明R特征对尺度变换、平移、旋转、噪声具有一定不变性和鲁棒性。(5)提出了一种基于上下文的多特征融合算法,利用多种互相联系并互为补充的行为特征来共同描述行为视频序列,对每个视频寻求其相似的视频作为上下文(context),构造了一种上下文感知核,度量了更高阶的上下文相似度,克服传统pairwise核只考虑两两相似度造成对噪音的敏感性。(6)提出了一种基于随机森林与Hough投票的多特征融合的视频行为检索算法,将两种特征融入随机森林的框架中,提出一种应用线性分类器生长树的方法加快了森林中每棵随机树的生长速度,并提高了鲁棒性;最后,利用训练样本的位置信息结合Hough投票实现测试样本的识别与定位。以上述成果为核心,项目在国际知名期刊与一流国际会议上发表了一系列论文,包括IEEE Transactions、Pattern Recognition、CVPR、ICIP、ICPR、ICASSP等。