多模态Web作弊检测的统计机器学习方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

多模态Web作弊检测的统计机器学习方法研究

项目名称：多模态Web作弊检测的统计机器学习方法研究
项目类别：青年科学基金项目
批准号：61005029
申请代码：F030409
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：耿光刚
负责人职称：副研究员
依托单位：中国科学院计算机网络信息中心
批准年度：2010

中文摘要：

Web作弊呈现出多样性、隐蔽性、融合性和进化性等特点，作弊行为的猖獗导致互联网搜索结果的质量不断下降，严重恶化了用户的搜索体验，成为影响搜索引擎公正性的首要问题。统计学习方法可以同时检测多种作弊形式，通过增加、删除相应特征保持系统对不断进化的作弊行为的有效检测，与链接分析等方法相比，表现出其优越性。本项目将分析Web作弊统计特点，拓展现有的机器学习算法，提取多视角分类特征，设计不同层次的多模态特征融合策略，进行基于统计学习的Web作弊检测。在此基础上开展链接学习，研究小样本集下的半监督Web作弊检测算法。该项目的难点和关键问题是如何从海量Web数据中挖掘不同视角的分类特征，特别是从亿级节点的超链接图中提取有效的链接特征。项目的顺利开展将(1)遏制日渐猖獗的互联网作弊行为，净化网络环境；(2)为Web搜索提供有效的可参考排序依据；(3)为色情、钓鱼等互联网不良信息的检测提供算法、策略支持。

中文主题词：网络作弊；链接作弊；内容作弊；机器学习；特征提取

英文摘要：

Web spam；Link spam；Content spam；Machine learning；Feature extraction

英文主题词： Web spam；Link spam；Content spam；Machine learning；Feature extraction

结论摘要：

Web作弊，又称搜索引擎作弊，是指采用迷惑、欺骗搜索引擎的手段，使得Web页面在检索结果中的排名高于其实际应得排名的行为。Web作弊的猖獗严重恶化了用户的搜索体验，成为影响搜索引擎公正性的首要问题。本项目通过分析Web作弊统计特点，拓展现有的机器学习算法，提取多视角分类特征，设计不同层次的多模态特征融合策略,研究半监督Web作弊检测，并拓展了多项计划外的研究。本项目主要内容描述如下本项目在机器学习框架下，提出了两种Web作弊检测的特征使用策略。策略一是提取不同视角的特征，包括内容特征、域名注册特征和链接相关特征等，进行基于融合特征的单阶段Web作弊检测。策略二是基于两阶段特征提取的Web作弊检测。我们深入分析了两种策略的关系以及它们的优缺点，为Web作弊检测的特征选择工作提供有意义的参考。通过分析作弊节点呈现出的拓扑依赖、聚类等特性，本项目提出了基于Web拓扑结构的半监督检测方法--LCo-training和Link-training2。标准数据集上的实验表明在少量标号训练样本的情况下，可以有效挖掘Web拓扑依赖，提升Web作弊检测性能。作弊节点间存在的拓扑依赖和聚类等特性，本课题改进了反映不同聚类中心的学习矢量量化算法，其核心是优化排序学习损失函数。尽管在作弊测试中，该算法并没有表现出比现有算法更优的性能，但在6个多标号分类的公开数据集上的实验表明，该极大地超出了经典的AdaBoost.MH算法和带元标号分类器的AdaBoost.MH算法，对于One-Error和MAC-F1两个评价指标，其优越性具有统计上的显著性(0.03)。随着对Web作弊的深入认知，课题组开展了多项计划外的研究内容，包括基于机器视觉的恶意跳转作弊检测，作弊场景下内容质量评价，以及将作弊检测算法用于网络钓鱼检测等。本课题取得成果包括发表13篇论文（其中4篇SCI，7篇EI），提交申请专利6项，申请著作权2项，参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名，开放一个隐藏作弊数据集，并开源一个作弊检测系统。项目的顺利开展不仅为Web搜索提供了可参考排序依据，而且为打击钓鱼等网络滥用提供算法和策略支持。

成果综合统计