位置:立项数据库 > 立项详情页
Web垃圾页面应对技术研究
  • 项目名称:Web垃圾页面应对技术研究
  • 项目类别:面上项目
  • 批准号:60673129
  • 申请代码:F020204
  • 项目来源:国家自然科学基金
  • 研究期限:2007-01-01-2009-12-31
  • 项目负责人:张岩
  • 负责人职称:副教授
  • 依托单位:北京大学
  • 批准年度:2006
中文摘要:

随着Web信息的爆炸式增长和搜索引擎的快速发展,人们越来越习惯于使用搜索引擎来查询信息。于是大量的不道德网站开始使用spamming手段去欺骗搜索引擎,从而使自己的网页获得较高排名。这些web spam的泛滥,不但极大地浪费了搜索引擎的宝贵资源,而且大大降低了搜索引擎用户的查询和使用效率,已经成为困扰搜索引擎的一个严重问题。本项目针对Web垃圾信息的特点,通过在北大"天网"系统收集的Web页面集合以及国际公认数据集WEBSPAM-UK2007上的大量实验,在Web页面可信度排名算法、用户访问模式挖掘、排名算法的快速计算等几个方面展开研究,获得了一些成果。这些成果为搜索引擎提高用户查询质量、网络管理者有目的地屏蔽垃圾信息可提供较好的帮助。特别地,我们提出了AVRank/HVRank两个评价指标。它们不但可以用来有效地屏蔽Web垃圾信息,也可以用作一般性的Web页面排名。我们的实验表明,它们比PageRank更加客观、有效。如果能够被主流搜索引擎考虑作为排名因子之一,那么可以有效地提高排名结果,带来更好的用户体验效果。

结论摘要:

英文主题词Search engine; Web spamming; Spam page


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 2
  • 14
  • 0
  • 0
  • 0
相关项目
期刊论文 13 会议论文 6 专利 4
期刊论文 49 会议论文 19 获奖 1 著作 1
期刊论文 10 会议论文 10 专利 1
期刊论文 18 会议论文 8
期刊论文 1 会议论文 5
张岩的项目