自然场景中存在大量的文本和标识,特别是现代城市环境中,文本和标识几乎随处可见。文本和标识包含丰富的语义信息,这些信息可以用于车辆导航、图像搜索、视频监控和工业自动化等领域。但是,由于缺乏有效的手段,目前计算机尚无法直接获取和利用这些包含高层语义的视觉信息。因此,自然图像中的文本和标识提取成为计算机视觉和模式识别领域的重要研究课题。 与文档图像不同,自然图像可能存在各种质量退化(比如,透视变换、非均匀光照和模糊等)。此外,自然场景中的文本和标识也可能形态多样(比如,不同的大小、颜色和方向等)。这些因素给自然图像中的文本和标识提取带来了极大的挑战。本项目研究从图像中自动提取高层视觉信息的方法。该方法可以从复杂的自然场景中检测和识别具有不同大小、颜色和方向的文本和标识。
英文主题词scene text detection;scene text recognition;mid-level representation;deep neural networks;text rectification