Internet和WEB搜索引擎的发展正迅速改变着这个世界:不仅影响着人们日常生活和购物的习惯,并且蕴涵着巨大的商机。对许多个人或是公司来说如何能在上百亿的海量WEB数据中被搜索引擎排序在前列成为至关重要。由此Web Spamming现象和技术就产生了人为地使某些网页得到其不应该得到的高排序值。Web Spamming严重地影响了WEB搜索引擎的性能和检索结果的质量,被称为未来WEB搜索引擎研究所面临的最大的挑战之一。本项目正是对Web Spamming中最重要的,今后占主导地位的Link Spam进行研究,主要内容包括1)对SPAM网页和Link Spam结构进行统计分析和结构分析;2)通过基于链接分析的聚类算法来识别Link Spam的核心结构;3)提出基于图近似匹配和决策树的高效识别算法以及多层次应对算法;4)在海量真实Web数据上验证提出算法的有效性并和目前的启发式算法进行比较