Web spam已成为Web信息检索面临的重要问题,开展该研究有利于spam识别,其理论成果也可用于识别敏感页面。目前研究大多通过定义启发式函数实现spam页面识别,精度不高、泛化能力差。课题拟从spam页面特征建模及优化,不平衡数据的过取样处理及基于问题相关的判别学习算法几方面对该问题进行系统研究,提出spam特征识别模型及优化策略,构建引入spam页面局部及全局一致性特点的识别函数,同时研究使用迁移学习技术,充分利用相关问题辅助训练样例,建立Web spam识别的系统化理论模型及算法,提高spam识别效果及算法泛化能力。
spam modelling;discriminative learning;transfer learning;spectral clustering;over sampling
(1) 项目背景一般地,在搜索结果中越是排在前面的网站,就意味着它的重要程度越高,也就能吸引到更多的用户访问它,因此给它带来的商业利润也越大。因此,垃圾网页制作者出于经济或商业利益,采用各种各样的不正当手段欺骗搜索引擎,达到在搜索结果中排序靠前,从而获取较高点击率的目的。近些年来,Web spamming已逐渐成为困扰搜索引擎的严重问题,它使垃圾网页排在某些正常网页前面,骗取用户点击,严重干扰用户获取信息。这在很大程度上破坏搜索质量,降低用户对搜索引擎的信任度。 (2) 主要研究内容按照课题研究计划,我们搜集、阅读了大量相关科技文献,及时跟踪学术前沿,并组织了专家讨论会,制定了详细的研制计划,针对web页面特征选择、web页面与spam页面不平衡问题以及针对判别学习技术在spam页面识别方面存在的问题,我们做了大量的工作,并取得了一系列研究成果。项目组深入全面地研究了网页特征,提出把网页特征作为垃圾网页识别的辅助手段;建立内容特征和链接特征的协同模型用于检测垃圾网页;基于嵌套旋转森林对垃圾网页的不平衡数据集分类;利用自标记技术结合多分类器模型,对垃圾网页的不平衡数据集分类;利用网页排分检测垃圾网页;基于网络链接结构利用双向趋势信息反馈进行垃圾网页检测;基于拟合特征分布的垃圾网页检测方法;基于结合内容特征的TrustRank算法改进;基于独立成分分析和协同训练的垃圾网页检测;基于多视图典型相关分析的垃圾网页检测;基于SMOTE和随机森林的Web spam检测,等等。 (3) 重要结果、关键数据及其科学意义等 特征选择及优化方面。分析正常页面与Spam页面间判别能力大的特征,选择相关特征,同时利用典型分析技术,将多视图特征加以融合,,提高页面识别的准确率,取得了很好的效果;过采样方面。提出了基于同分布假设,生成少数类样本的技术。只有保持数据分布不变的情况下,实现少数类样例过采样,才能学习到无偏的分类器。丰富的实验结果表明,该方法有利于提高少数类的分类精度;识别算法方面。依据spam问题特点,充分考虑页面间的局部及全局一致性,定义适用问题的目标优化函数,提出了改进的SVM分类算法。其他成果研究表明,针对特征层面、数据层面及算法层面的研究可以有益结合,提高spam页面的识别效率。