原生数字图像是用计算机软件生成的图像。不良文本信息可以很容易地转为原生数字图像在网络传播,从而避过文本过滤技术。原生数字图像文本提取工作面临分辨率低、边缘柔化所引起的连通体生成困难这一问题,使得以往复杂图像文本提取研究中常用的基于连通体分析的方法失效。本课题拟构建多级优化模型,通过像素点级、连通体级、文字级的同步优化解决连通体生成困难问题;采用基于样本库的自适应学习解决优化模型的参数选取问题;利用彩色图像过分割等方法解决模型求解效率问题,并基于过分割结果融合及软决策方式解决超像素边界与文字边界的匹配问题。针对敏感网络图像过滤应用,将敏感关键词信息融入到优化模型中,以高召回率检测敏感图像,解决不良文本内容以图像方式在网络传播所带来的社会问题。
英文主题词text information;born-digital image;text segmentation;character recognition;content-based image filtering