网络技术与数码成像技术的发展在推动社会进步的同时,也带产生了负面效果,例如大量网络传播的色情图片对青少年的健康成长产生着恶劣的影响。近年来,视觉目标分类(VOC, Visual Object Classification)的研究在国内外广泛开展。以VOC方法研究为基础,以色情图片监测为具体应用,项目研究组进行了数年的研究,参加了国际2009VOC竞赛,取得了国内第一,国际第八的成绩。在色情检测上,建立了空间多尺度和多语义融合方法,大幅度提高了传统方法的性能,建立的系统已被江苏省电信和广西省电信采购和应用,在线检测精度94.5%。在前期工作基础上,面对实际出现的问题,本项目以视觉心理学为指导,考虑特征和分类这两个模式识别重要层次,在主旨/概念提取与融合、基于检测的分类方法、基于局部稀疏表示的分类方法上展开探索。针对网络色情影像,建立更加有效的色情图像监测系统,并积极开展应用推广工作。
image classification;recognition of the pornographic text;erotic behavior representation;action recognition;
智能手机及移动互联网的迅速普及在推动社会进步的同时,也带产生了负面效果,例如大量网络传播的色情图片对青少年的健康成长产生着恶劣的影响。本项目以通用视觉目标分类(VOC, Visual Object Classification) 方法研究为基础,以色情图片监测为具体应用,在图像及视频中色情目标的检测和分类方法方面展开了深入研究。为了验证不同方法的有效性,我们在通过和国内外研究学者的交流,以及在国内相关企业的帮助下,我们初步建立了一个色情/正常两类图像数据库,为后续研究和实验提供数据基础。针对色情图像容易受到周围物体、灯光等环境因素的影响,借鉴字符图像归一化的思想,我们提出了基于视觉词典密度的色情图像归一化方法,基于BOW模型+SVM分类器,实验结果表明该方法可以显著提高色情图像分类正确率。为了利用色情图像及视频中的文字信息来判断其是否含有色情信息,我们在图像及视频中的色情文字检测与识别方法展开了研究,将文字表示为基于部件的结构,并且将检测与识别无缝链接,提出了基于结构指导及语言模型的色情文本识别方法;在此基础上,提出了一种集检测与识别为一体的色情文字识别框架,使检测与识别相辅相成,在公开数据集上取得了国际领先的结果。为了对视频中的色情行为进行精确描述及分类,我们分别在色情行为的特征表示及识别层面展开了积极的研究,提出了一种基于结构化词典的色情行为识别方法,对色情行为的表示具有较强的判决能力及对噪声的抗干扰能力;针对以往的方法并没有考虑底层特征,属性和类别三者之间的关系,我们提出了基于属性正则的行为识别方法,在多任务学习的框架下加入了正则属性,同时考虑到了三者之间的关系;针对色情视频中主体的多视角行为识别问题,我们提出基于语义最大间隔聚类(contextual maximum margin clustering,CMMC)的多视角行为识别方法,取得了较好的多视角行为识别性能。基于以上研究成果,我们积极开展应用推广工作,相关算法及引擎已经在电信多个网点上线试用,反应良好,为检测网络不良图片及视频内容作出了重要贡献。