位置:立项数据库 > 立项详情页
模拟视觉信息处理机制的视频对象行为识别
  • 项目名称:模拟视觉信息处理机制的视频对象行为识别
  • 项目类别:面上项目
  • 批准号:60972158
  • 申请代码:F010402
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:刘海华
  • 负责人职称:教授
  • 依托单位:中南民族大学
  • 批准年度:2009
中文摘要:

视频对象行为识别由于在智能监控、高级人机交互等方面有着广泛的应用前景,从而成为备受关注的前沿研究方向之一。虽然行为识别目前已取得了许多理论上和应用上的成果,但仍缺乏普适性和鲁棒性。为此,本项目拟模拟人的视觉信息处理机制,根据视觉信息处理的双通路结构,构建视频对象行为识别系统;以视觉处理背侧通路的前馈理论为基础,建立运动特征提取的层次结构模型,使用三维滤波器和时空能量滤波器分析和处理运动信息,实现运动信息速率和方向的选择性操作,提取有效的视频对象运动特征;根据视觉皮层特征捆绑的脉冲同步振荡理论,提出新的特征捆绑模型,实现视频对象空间特征和运动特征的选择和融合,充分发挥两类特征在识别中的相互作用,提高识别性能;在此基础上,建立一个完整的视频对象行为识别系统,利用通用视频序列对系统进行测试、分析和比较,验证新理论和新方法的有效性。通过本项目的研究,可以实现较准确的视频对象行为识别,推动图像理解技

结论摘要:

视频对象行为识别由于在智能监控、高级人机交互等方面有着广泛的应用前景,成为备受关注的前沿研究方向之一。目前已取得了许多理论上和应用上的成果,但大多仍缺乏普适性和鲁棒性。为此,本项目模拟人的视觉皮层信息处理机制,构建了视频对象行为识别系统。目前有关运动模式是在哪个区域完成的,存在不同的推测。迄今大多数关于行为识别的研究都是围绕MT阶段展开的。本课题首先针对V1阶段获得的信息能否进行行为识别的问题展开研究。采用3D Gabor滤波器及其组合分别模拟初级视觉皮层中简单、复杂细胞的感受野,从而获取对运动速度和方向敏感的运动能量,并通过V1阶段的环绕抑制来增强运动能量和降低噪声的影响。其次,采用IF(Integrate-and-fire)脉冲神经元模型模拟初级视觉皮层的神经元,将获取的运动信息转换为神经元响应的脉冲链;最后,提出行为编码方法,利用脉冲链平均发放率提取特征向量,并采用支持向量机(SVM)进行分类。在Weiziman和KTH数据库下进行测试,实验结果表明, V1阶段获得的信息可以进行行为的识别;另外一方面,神经科学研究表明在视觉初级皮层中神经元之间也存在侧连接,这一特性表明利用视觉感知的运动历史信息有助于行为的识别,从而提出运动对象边缘累积的方法进行特征提取,利用基于网格的方向梯度直方图(Histograms of orientation gradients,HOG)表征人体的行为,从而进行行为分类,实验结果表明在YouTube数据集上该方法比其他方法更加有效。在人的视觉系统中,眼动的主要目的是对运动对象的注意。模拟视觉初级皮层的视觉感知,对时空信息采用线性融合的方法进行信息处理,从而建立了基于视觉注意的运动对象检测模型,减少了行为识别的计算时间。在此基础上,根据视觉信息处理的双通路前馈理论,利用皮层间的侧连接方法建立从V1到MT层的仿生行为识别模型,构建完整系统,实验结果表明V1层的处理对于简单背景下的简单行为的识别是足够的,而在复杂背景下的复杂行为需要MT层进一步的处理后可提高识别率。通过本项目的研究表明,模拟人的视觉系统的基本结构进行行为信息处理,可以实现较准确的视频对象行为识别。同时,该项目的实施给神经科学的研究提供了启示,即低级视觉皮层到高级皮层的连接是多结构的。那么这种结构如何连接还需进一步的研究,这也是今后的研究课题。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 21
  • 2
  • 1
  • 0
  • 0
相关项目
期刊论文 23 会议论文 3 获奖 1 专利 3
刘海华的项目