匹配失效是制约立体视觉三维重建技术的主要因素。为准确、可靠地分析与理解三维场景,本项目拟从运动视觉分析的角度寻求多视重构的求解方法,系统地揭示空间三维运动场的光流-场景流动力学模型,科学地阐明基于非刚体运动估计理论的立体视觉三维重构的理论机理,进一步展开自由曲面修正的模型推导和实验验证。研究思路为将重建模型反馈至重建过程,用各视图像的偏差驱动模型变形,从而绕开了匹配的瓶颈;图像偏差正是由各视的光流矢量场来定量地衡量,因而在立体视觉与光流场之间建立一个准确恰当的结合点。本项目突破了传统的思维定势,研究方法为国内外首次提出,因而具有较高的学术研究价值。这一理论方法的研究实施,必将有力推动计算机视觉三维重构与实体数字化技术的研究进展。
3D reconstruction;monocular vision;optical flow;scene flow;registration
三维场景的分析与理解是无人车驾驶、机器人导航、虚拟实现等领域亟待解决的关键性技术。为提高三维重建的准确性、可靠性,本课题提出了基于运动视觉分析的多视重构的求解方法,系统地揭示了空间三维运动场的光流-场景流动力学模型,科学地阐明基于非刚体运动估计理论的立体视觉三维重构的理论机理,通过对传统视觉路线得到的原始网格曲面的调整,得到接近真实的修正曲面。研究思路为通过帧间光流场提供的同名像点匹配关系实现稀疏重构,运用改进的集数平差法改善点精度,从而实现基于隐式曲面的原始网格重建;将重建模型反馈至重建过程,用各视图像的偏差驱动模型变形,从而绕开了匹配的瓶颈;将粗略、不准确的原始网格曲面经过致密的非刚性变形,调整至精确的曲面。对于多个视角获取的局部三维重建结果,提出了可靠的三维配准策略,实现了较大范围场景的拼接。由于光流场的估计精度对于重建结果的影响至为关键,课题通过多角度的改进方法显著提高了光流场的估计精度和运算效率。为进一步提高算法的实时性能,通过采用了基于GPU硬件的CUDA并行化和多重网格加速收敛方法,显著地提高了算法的执行效率。 课题通过真实场景下的多组实验对算法性能进行测试,结果为所提出的重建方法运行可靠,能够得到致密、连续的点或面重构;精度较好,测量相对误差小于4%,三维配准误差小于4%;通过CUDA并行化,运算复杂度较高的计算模块,可以得到几十倍的加速比;通过多重网格加速收敛算法,可以得到3-4倍的加速比。上述结果说明课题所提出的视觉重建方法可行、有效,提供了一条基于运动视觉分析的三维重建的新思路,完成了预定的研究目标。