随着Web信息的爆炸式增长和搜索引擎的快速发展,人们越来越习惯于使用搜索引擎来查询信息。于是大量的不道德网站开始使用spamming手段去欺骗搜索引擎,从而使自己的网页获得较高排名。这些web spam的泛滥,不但极大地浪费了搜索引擎的宝贵资源,而且大大降低了搜索引擎用户的查询和使用效率,已经成为困扰搜索引擎的一个严重问题。本项目针对Web垃圾信息的特点,通过在北大"天网"系统收集的Web页面集合以及国际公认数据集WEBSPAM-UK2007上的大量实验,在Web页面可信度排名算法、用户访问模式挖掘、排名算法的快速计算等几个方面展开研究,获得了一些成果。这些成果为搜索引擎提高用户查询质量、网络管理者有目的地屏蔽垃圾信息可提供较好的帮助。特别地,我们提出了AVRank/HVRank两个评价指标。它们不但可以用来有效地屏蔽Web垃圾信息,也可以用作一般性的Web页面排名。我们的实验表明,它们比PageRank更加客观、有效。如果能够被主流搜索引擎考虑作为排名因子之一,那么可以有效地提高排名结果,带来更好的用户体验效果。
英文主题词Search engine; Web spamming; Spam page