复杂场景语义学习是自主移动机器人所应具备的基本能力。现有方法多是针对单幅静态普通图像,没有考虑全向图像以及图像序列之间关联,适用范围有限。本项目旨在发挥全向摄像机的大视场优势,使用移动机器人平台上的单目全向摄像机运动过程中所获得的复杂场景稀疏三维点云数据(SFM),利用自适应张量投票方法提取场景底层三维结构特征;融合颜色、纹理、超像素布局等二维图像信息,采用层次化条件随机场(CRF)对分类似然以及先验知识进行概率建模,学习场景语义结构;利用联合Boosting方法将三维几何特征和二维表观特征有效的统一在同一框架内;通过在CRF模型中引入高阶势函数,改善边界分割的准确度,实现复杂场景的有效分析与认知表达。通过以上内容的研究,建立一系列关于全向图像语义学习算法,试图解决目前移动机器人复杂场景理解中的实用性和鲁棒性难题,丰富全向视觉的基本理论和方法。
Omnidirectional Vision;Scene Analysis;3D Reconstruction;Pose Estimation;
自主移动机器人是一种能够在复杂环境连续实时自主运动的智能机器人,研究涉及图像处理、计算机视觉、传感器技术、人工智能、自动控制、并行处理、机械学等多学科理论与技术,体现了信息科学与人工智能的最新成果,具有重大的理论意义和应用价值。移动机器人系统大都装配了多种传感器,还利用信息融合技术使机器人更好地感知环境,但视觉传感器始终是必不可少的重要组成部分,因此计算机视觉就自然地成为移动机器人研究中的一个最重要领域。 全向摄像机标定是运动分析和结构恢复必不可少的步骤,目前,全向摄像机标定已经成为全向视觉系统应用的瓶颈。有些系统假设全向摄像机内参数固定不变。实际情况经常是摄像机内参数随时间变化而产生漂移,采用离线标定方法会给系统带来诸多麻烦。同时,变参数自标定方法需要多幅图像和非线性优化方法,需要较长时间,也不适合于实时系统。通过特征跟踪可以获得前后两帧之间的特征匹配点对,但这样得到的匹配有些是错误的,如果简单地使用最小二乘方法估计运动参数和恢复场景的三维结构,会产生较大误差,所得结果不可用。若采用传统的三维重建技术,虽然可以得到一个鲁棒的估计结果,但这时系统的实时性无法保证。为此我们提出使用球面调和分析的球面快速傅立叶变换方法来解决系统的实时性和鲁棒性问题。 我们将图像划分为许多个小的图像块,以图像块为单位判断每个图像块可能属于哪一类景物,即图像块内所有像素点均属于同一类对象,从而在整幅图像中提取出各个不同的对象。将整幅图像划分为许多的小图像块之后,提取每个图像块的颜色、形状、纹理等特征,依据不同景物对象之间在这些特征上的差异,区分出每个图像块所属的对象类别。对于复杂场景图像我们将其划分为不同类别,并使用基于机器学习的分类方法来实现对复杂场景图像的理解分类。 上述成果分别于国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI, 2012年公布的五年期SCI影响因子为6.085)上发表 2 篇,国际期刊Pattern Recognition Letters 上发表 1 篇,以及重要国际会议如ICPR、 BMVC等上发表 5 篇。申请发明专利 2 项。