随着数字媒体技术的发展以及IP承载网的普及,人们对实时且高效的视频信息处理提出了更高的要求。现有的基于像素/块的视频处理技术忽略了视频的层级结构,无法直接用于内容分析和进一步去除内容冗余,而基于对象的则难以满足视频分析和视频编码在通用性方面的需求。本项目拟通过发掘视频信息内容表示中的基元/纹理层级,探索填补"像素级别表示"和"对象级别表示"之间"鸿沟"的新的理论和方法,内容包括研究视频统计信息的基元/纹理构成方式,提出一种基于时空基元与动态纹理的"动态初始简图"参数化模型以及运动基的层级表示方法;采用非线性滤波估计技术提取动态初始简图模型;形成指导视频统计建模与内容信息提取的信息理论;在上述理论基础上,研究高效的视频内容表征与运动信息解析方法在视频编码、动画制作、新型人机交互等相关领域的应用。本项目将从研究视频的表示问题出发建立一套完整的视频理论体系,是视频分析与处理领域的一个突破。
Dynamic primal sketch;space-time texton;intrackability;nonlinear filtering;content information theory
传统基于像素与基于对象的视频处理技术已不能适应文化创意与新媒体产业飞速发展的需要,视频的原始像素与具有语义特性的内容信息之间存在巨大的“鸿沟”,因而寻求一种高效的视频信息层级表示模型,探索指导这种模型建模的新的视觉信息理论,实现从视频信号到内容的映射,成为发展下一代视频处理技术的突破方向。本项目通过发掘视频内容表示中的基元/纹理层级,研究基于基元/纹理的视频内容表示方法以及相应的参数化模型,形成指导建模与内容信息提取的视觉信息理论。同时在此基础上,提出一种高效的视频内容表征与运动信息解析与表达方法,并进一步在视频编码、风格化动画渲染、人机交互等多个相关领域进行了应用验证。 1. 在贝叶斯视频信息理论方面,针对图像提出图像广义建模理论与模型适应度度量方法,同时针对视频的模型属性,提出不可跟踪性分析理论和量化表达推理不确定性概念,用于刻画视频数据的统计特性和衔接不同视频的表示模型,从而构成新的视频表征与编码研究的理论基础。 2. 在视频的多尺度解析与混合模板表征方法方面,构造了图像/视频混合模板表达的动态初始简图模型,能够同时直观表达二维图像和三维物理空间中的视觉信息,为视频的解析与表征提供了有效的工具,同时将该动态初始简图模型应用到高层的行为模板的学习中,实现了对视频中运动信息的识别和表达。 3. 在智能型视频建模与优化理论方面,提出了粒度空间的概念,并针对不同粒度模型提出了多种特征描述方法;提出了复杂度敏感的快速特征提取、特征累积与重用等关键技术,实现了视频解析过程中训练速度、分类效率等多种性能的提升。 4. 针对上述理论,在视频编码、风格化动画渲染、人机交互等多个领域进行了应用验证,包括(1)提出了高压缩率的背景模型增强编码方法;搭建了基于视频动态初始简图模型的编码框架,与H.264相比可获得更高的压缩率和更小的主观视觉重建损耗。(2)提出了基于样例的运动轨迹分解与合成算法;提出了基于笔画过程自定义的油画风格渲染技术,获得国际顶级会议NPAR最佳论文荣誉提名。(3)提出了人脸、车辆、行人等目标检测、人脸形状定位与识别、动作识别等领域中的一系列改进算法。本项目实施过程中,共发表本领域重要国际期刊和国际会议论文84篇,其中国际期刊论文15篇,国际主流会议论文36篇。已授权国家发明专利4项。培养博士生15名,硕士生30名。