互联网敏感信息的过滤是一个重大实际需求。对多模态敏感网页在内容上的理解是网络敏感信息过滤中的最为重要而又最为困难的问题之一。因此,本项目的研究不仅具有广泛的应用前景和巨大的经济效益,而且具有重要的理论研究价值。课题提出的主要算法有Web结构信息提取与页面有效信息获取、基于压缩域解码的快速敏感图像识别、面向有害视频过滤的关键帧快速提取与one-class过滤算法、融合音视频的有害视频检测、基于语义的敏感文本识别、基于音素网络关键词的有害语音识别、网页级文本图像融合算法、实例驱动的半监督个性化网页过滤方法;并设计了相应的互联网敏感内容过滤原型系统。课题在国内外重要刊物和会议上发表论文35篇(包括IEEE TPAMI,IEEE TSMC-B,ICCV,ECCV,CVPR,WWWW,CIKM等);已申请专利13项,其中授权国家发明专利二项。相关成果得到了实际应用。
英文主题词Multi-model web pages; Understanding and recognition; principles and methods