基于香农信息论原理的以图像像素与规则块为处理对象的视频压缩方法使用多年,形成了当今的混合编码技术框架。但该技术框架已面临严重的发展瓶颈,其编码效率的提高主要依赖以增加实现复杂度为代价的微细粒度计算,因此难有大的提升空间。近年来随着研究的逐步深入,人们发现人类视觉系统对视觉信息处理的粒度与现有基于传统信息论的方法有很大不同,如果我们能将人类视觉系统的处理模型引入现有视频编码技术框架,将有可能取得重要突破。为此,本项目研究基于视觉特性的编码方法。项目以图像和视频等视觉信息为处理对象,研究基于模型的视觉特征提取、表示与编码方法,提出视知觉熵,视知觉信息论的概念,解决视觉信息表示和编码的基本理论问题,建立视觉信息编码理论体系和框架,改进现有基本编码算法工具集,突破新一代视频压缩标准的技术瓶颈,力争所研究的技术被H.265国际标准以及AVS2等国家标准所采用。
Weber's Law;Image Primitive;Entropy;Structure Similiarity;SVC
本项目是一个融合神经科学、认知科学、计算科学等学科的综合性项目,主要是借鉴脑科学和神经科学的最新研究成果,以视知觉基本机理研究为出发点,探索图像/视频信息表示和编码的新理论与新方法,构建较为完整的视觉计算模型,突破新一代视频压缩核心技术,推动我国视频产业实现跨越性发展。其主要技术难点包括视觉信息的表示、视知觉熵的定义及测量,视觉率失真编码理论,视知觉信息论等。 在视觉计算模型与基于视觉特性的高效视频编码表达方面,提出了基于韦伯定律的局部描述子、稀疏编码局部描述子以及图像条带局部特征等物体表示和检测方法,并在此基础上提出了基于目标检测和背景建模的监控视频编码方法,大大提升了视频编码的压缩效率。 在图像稀疏表示与编码理论方面,提出了基于图像基元的视觉熵概念与视觉失真量度方法,并在此基础上进行基于视觉特性的率失真优化编码研究,以及基于结构特性的视觉质量评价方法,为提出新一代视频编码技术奠定了理论和技术基础。 在高效编码技术与国际与国内标准制定方面取得突出进展。其中基于背景建模的监控视频编码技术作为AVS新一代编码标准的典型代表成为IEEE国际标准P1857的一部分;作为重要主导单位之一成功制定了国家广播电影电视行业标准AVS+并颁布实施;制定了AVS 3D视频编码标准并在广州亚运会节目转播中试播成功。 项目组在取得研究性成果的同时,还开发了2D-3D专业制作系统,基于AVS的立体电视系统,以及多路编码器主观测试控制系统等多个应用原型系统或验证平台,这些系统为后续研究工作提供了平台和基础。 发表学术论文72篇,申请国家发明专利20项,其中已授权4项;培养博士16名、硕士20名;组织国际学术会议1次,参加国际学术会议12人次以上。