Web作弊呈现出多样性、隐蔽性、融合性和进化性等特点,作弊行为的猖獗导致互联网搜索结果的质量不断下降,严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。统计学习方法可以同时检测多种作弊形式,通过增加、删除相应特征保持系统对不断进化的作弊行为的有效检测,与链接分析等方法相比,表现出其优越性。本项目将分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,进行基于统计学习的Web作弊检测。在此基础上开展链接学习,研究小样本集下的半监督Web作弊检测算法。该项目的难点和关键问题是如何从海量Web数据中挖掘不同视角的分类特征,特别是从亿级节点的超链接图中提取有效的链接特征。项目的顺利开展将(1)遏制日渐猖獗的互联网作弊行为,净化网络环境;(2)为Web搜索提供有效的可参考排序依据;(3)为色情、钓鱼等互联网不良信息的检测提供算法、策略支持。
Web spam;Link spam;Content spam;Machine learning;Feature extraction
Web作弊,又称搜索引擎作弊,是指采用迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于其实际应得排名的行为。Web作弊的猖獗严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。本项目通过分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,研究半监督Web作弊检测,并拓展了多项计划外的研究。本项目主要内容描述如下 本项目在机器学习框架下,提出了两种Web作弊检测的特征使用策略。策略一是提取不同视角的特征,包括内容特征、域名注册特征和链接相关特征等,进行基于融合特征的单阶段Web作弊检测。策略二是基于两阶段特征提取的Web作弊检测。我们深入分析了两种策略的关系以及它们的优缺点,为Web作弊检测的特征选择工作提供有意义的参考。 通过分析作弊节点呈现出的拓扑依赖、聚类等特性,本项目提出了基于Web拓扑结构的半监督检测方法--LCo-training和Link-training2。标准数据集上的实验表明在少量标号训练样本的情况下,可以有效挖掘Web拓扑依赖,提升Web作弊检测性能。 作弊节点间存在的拓扑依赖和聚类等特性,本课题改进了反映不同聚类中心的学习矢量量化算法,其核心是优化排序学习损失函数。尽管在作弊测试中,该算法并没有表现出比现有算法更优的性能,但在6个多标号分类的公开数据集上的实验表明,该极大地超出了经典的AdaBoost.MH算法和带元标号分类器的AdaBoost.MH算法,对于One-Error和MAC-F1两个评价指标,其优越性具有统计上的显著性(0.03)。 随着对Web作弊的深入认知,课题组开展了多项计划外的研究内容,包括基于机器视觉的恶意跳转作弊检测,作弊场景下内容质量评价,以及将作弊检测算法用于网络钓鱼检测等。 本课题取得成果包括发表13篇论文(其中4篇SCI,7篇EI),提交申请专利6项,申请著作权2项,参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名,开放一个隐藏作弊数据集,并开源一个作弊检测系统。项目的顺利开展不仅为Web搜索提供了可参考排序依据,而且为打击钓鱼等网络滥用提供算法和策略支持。