从图像/视频数据中重建出实际场景的三维模型,是计算机视觉领域的基本问题,在景观评价、虚拟现实、军事演习和影视娱乐等领域有着广泛的应用前景。但目前以多视图立体为代表的三维重建方法在鲁棒性、精度、规模和效率上都遇到不同程度的瓶颈,难以满足一些高端应用需求。针对这些问题,本项目提出一套基于密集图像/视频采样的三维重建方法。重点研究大场景的运动推断结构技术,以获得高精度的摄像机参数和场景的稀疏结构;基于密集的图像/视频数据,解决无特征和复杂遮挡区域的深度恢复问题,并突破深度恢复的分辨率和场景规模限制,实现高精度的静态场景三维重建;深入挖掘和利用动态视频在时序上的多帧关系,并结合几何形变理论,解决动态三维重建的多义性问题,实现运动物体的动态三维恢复。在此基础上,本项目还将搭建起基于图像/视频的三维重建原型系统,验证所提出的方法。
feature tracking;depth recovery;3D reconstruction;video segmentation;large-scale scene
本项目主要研究如何从图像/视频数据中重建出实际场景的深度和三维几何信息。针对目前方法在鲁棒性、精度、规模和效率上的各种问题,本项目提出了一套基于密集图像/视频采样的三维重建框架,在大场景的运动推断结构、复杂场景的时空一致性深度恢复以及视频分割等方面展开了深入研究,取得了一系列突破性进展。目前已经在国际顶级期刊(IEEE TPAMI、IEEE TVCG)上发表论文2篇,计算机视觉三大会议ICCV、CVPR、ECCV上共发表论文4篇,其它国际会议和期刊论文2篇(EI检索),国内核心期刊3篇,申请专利4项(其中3项已授权)。主要研究成果如下 1)针对大尺度场景,我们提出了一个鲁棒高效的非连续特征跟踪方法,不但能有效延长特征点的跟踪寿命,而且还能将分布在不同视频序列上的同名特征点快速匹配起来,可以有效提高摄像机跟踪的精度和规模,从而为大场景的高精度稠密三维重建奠定了基础。 2)针对高分辨率图像提出了一个基于全局优化的保细节分层多视图立体匹配方法,有效解决了高分辨率图像的高精度深度恢复问题。针对动态场景,我们分别提出了基于三目摄像机和基于多个自由移动的同步摄像机的时空一致性深度恢复方法,比传统方法更为方便灵活,而且成本更小。此外,针对含有多个刚性运动物体的序列,我们提出了一个多体立体匹配深度恢复方法,可以将多个刚性运动物体自动分割出来并同时恢复其深度。我们还提出了一个新的视频对象三维运动迁移技术,无需借助特殊运动捕捉设备,只需一个手持的摄像机就可以将视频物体的运动抽取出来作用到一个三维模型上。 3)在视频分割方面,我们提出了一个新的运动前景抽取方法,通过鲁棒的深度和运动估计来实现对运动前景的有效抽取,并且估计出整个场景的光流信息和背景的深度信息。基于上述研究成果,我们搭建了一个摄像机自动跟踪和深度恢复系统ACTS(最新版本为V2.0,http://www.zjucvg.net/acts/acts.html),在网上发布供大家免费使用,受到了国内外同行的广泛关注和好评。目前已经有超过900名注册用户。总得来说,该项目很好地按预定目标深入研究了基于密集图像/视频采样的三维重建方法所涉及到的一系列问题,完成了申请书所承诺的指标。