位置:立项数据库 > 立项详情页
基于内容的视频处理与编码
  • 项目名称:基于内容的视频处理与编码
  • 项目类别:国家杰出青年科学基金
  • 批准号:61025011
  • 申请代码:F020502
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2014-12-31
  • 项目负责人:黄庆明
  • 依托单位:中国科学院大学
  • 批准年度:2010
中文摘要:

申请人围绕基于内容的视频处理与编码中的本领域难题,长期开展原创性研究。建立了基于视频片段显著度评估的视频结构分析框架,构建了视频中个体和群体对象行为分析模型,提出了基于视觉心理学特性的视觉关注分析方法,有效实现了视频内容处理和表示;提出了基于端到端失真估计的联合信源信道率失真优化模型,构建了可伸缩视频编码增强层码率分配的精确率失真函数,建立了虚拟视点质量无参考评价模型并推导出视点绘制失真理论上限,为解决视频编码优化关键问题提供了理论基础和核心技术。联合信源信道率失真优化模型被Nokia采用,并被SVC国际标准中JSVM采纳。发表论文100多篇(SCI 24篇,EI 106篇),其中IEEE Trans.、ACM Multimedia、DCC等顶级国际期刊和会议论文10余篇。连续四年在ACM Multimedia发表长文,在DCC发表09年度国内高校唯一长文。申请发明专利17项(授权3项)。

结论摘要:

针对视频内容复杂化、传输网络异构化和应用需求多样化等挑战,在以下研究中取得了创新成果 1.结构化内容表达方面针对海量媒体内容的复杂分布、复杂语义结构及复杂数据关联等问题,研究具有语义一致性的结构化媒体信息表示模型。提取紧凑二值图像特征并建立特征空间结构模型,构建描述能力强的紧凑视觉特征表达方式;提出基于关联约束的低秩稀疏编码策略和层次化图像语义描述,克服视觉多义性和语义多态性问题;对视觉内容进行多源信息建模和表示学习,有效融合多个视觉特征的表达能力,实现了语义协同标注和基于语义的视觉重排序。 2.对象化内容分析方面以对象为中心分析视频内容的语义信息,提高分析的准确性及效率。建立层次化分类模型并进行特征迁移学习,有效平衡目标分类的准确性和复杂度;提出融合表观和运动模型的对象跟踪方法,提高复杂场景中目标跟踪的准确性;构建并发布多源多视动作数据集,提出融合表观与深度信息的时空结构关系描述子及融合社会属性信息的行为交互语义属性特征,提高了行为识别的准确率。 3.感知化内容适配方面在传统框架中引入视觉感知信息,并融合内容分析结果实现更加高效的编码与呈现。在图像视频质量主观评价中引入组合Hodge理论和随机图理论,获得感知一致性高的主观评分;构建语义敏感的视觉感知特性模型,并基于此构建融合视觉感知特性的率失真优化模型以及基于语义对象的在线学习人脸失真修复方法,优化了资源分配和视觉呈现质量。项目实施期间共发表和录用学术论文108篇,其中国际期刊论文40篇,包括T-IP、T-MM、T-CSVT等IEEE汇刊16篇;国内学报论文3篇;国际会议论文65篇,包括多媒体领域顶级会议ACM Multimedia长文3篇,计算机视觉领域顶级会议ICCV论文2篇(含Oral 1篇)、CVPR论文3篇,以及ICIP、ICME、ICPR、MMSP、PCM、ICDM、GAMENETS等本领域主流国际会议论文,并获得MMSP2011 Top 10% Best Paper,ICME2013和PCM2013 Best Paper Candidate,GAMENETS2014 Best Paper。申请国家发明专利12项,另有11项获得授权。向AVS国家音视频编解码标准提交技术提案8项,6项已获接收。出站博士后和毕业博士、硕士研究生20余名。相关工作获得中国计算机学会2012年度科学技术奖。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 8
  • 0
  • 3
  • 0
  • 0
相关项目
期刊论文 68 会议论文 25 著作 2
期刊论文 44 会议论文 5 获奖 1 著作 1
期刊论文 6 会议论文 8
期刊论文 18 会议论文 12 著作 1
黄庆明的项目