近年来随着视频业务的规模化和高质量化,海量视频数据的传输和存储面临巨大压力。基于视觉感知机理的视频编码,通过模拟人眼的注意选择性和掩蔽机制去除视频中的主观冗余,突破了传统编码思路的局限。但是,现有方法忽略了人眼的时域选择性,大量时域主观冗余无法去除;另外,当数据失真大于掩蔽阈值时,由于图像发生结构性的变化,基于掩蔽机制的失真模型不再准确,去除空域主观冗余成为难题。针对以上问题,申请者首先将视频内容的时域重要性和变化性引入到基于关注度的视频编码中,通过将视频划分成不同的时域层次,优化分级编码的帧级码率分配;其次,在频域的可察觉失真阈值模型中引入关注度因素,得到更精确的视觉阈值,并用于优化频域滤波和帧间预测编码;最后,通过对基于掩蔽机制的视频失真进行分段定义,建立加权MSE形式的失真模型,并以此优化块级的码率控制。预期本算法在同等主观质量下能降低20%的编码码率,显著提升视频服务的实际效能。
video perception coding;scalability coding;temporal selection;distortion measure;masking effect
本项目面向视觉感知编码的基本理论问题,研究基于时域选择特性和分级掩蔽的视频感知编码技术,提升压缩效率,搭建视频感知编码框架,开展编码效果的验证测试。(1)时空域关注度分析技术传统的关注区域建模方法在实际应用中受到光线变化、环境噪声、前景物体运动速率变化等因素的影响,前景物体提取的效果不佳,甚至造成前景物体漏检。为此,本项目研究基于时空域关注度分析的背景减除技术。通过分析光线变化、环境噪声、前景物体运动速率等因素对时空域关注度图的影响,明确空域关注度图和时域关注度图之间的对应关系,建立时空域关注度的融合模型,将固定背景更新速率扩展为自适应调整;在此基础上,研究基于时空域关注度分析的背景减除算法,有效的提升了关注区域提取的性能,实验表明本方法的F值较参考算法从0.43提升到0.7,为后续的编码和处理奠定了基础。(2)基于关注度的可分级编码技术在关注度分析的基础上,本项目将视频信号分成不同的关注度层次,即基本层和若干增强层,然后进行分级编码。在视频帧的时域层次映射步骤中,本项目提出两级分层的思想第一次分层考虑场景内容的重要程度,通过分析关注度的时域变化,将GOP划分成不同的时段;第二次分层考虑场景内容的变化程度,将代表性的视频帧映射到较低的层次。进而,根据关注程度的不同优化帧级的码率分配,达到在码率受限的情况下,优先保证感兴趣区域的编码质量。(3)基于Foveated JND模型的视频感知编码技术传统的JND阈值的视频感知编码对于非关注特征分配了大量的编码资源,存在大量视觉选择性冗余和认知冗余,编码资源不能集中到关键目标区域的辨识特征上。为此,本项目建立DCT域Foveated JND模型,通过分析视觉偏心率和图像频域信息掩蔽阈值之间的关系,将视觉选择特性引入基于频域JND阈值的残差滤波模型。同时研究基于结构相似性约束的视频编码,将图像块分成主要结构和次要结构,分析不同层次图像结构对图像内容认知的影响,建立基于主结构分析的图像失真模型,将传统的数据相似性度量扩展为结构感知的相似性度量。该方法在保证关注区域辨识度的情况下,编码码率降低15%以上,提升了监控系统在低码率情况下保存图像辨识特征的能力。完成上述工作的过程中,发表论文18篇(其中期刊8篇),申报发明专利9项,向AVS标准化组织提交技术提案3项,编码技术在3G手机视频监控系统中应用。