互联网信息量的迅速增加,使得搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段,网络垃圾页面利用各种不正当的手段获取较高的检索结果排名,对搜索引擎的运行和用户的使用产生了极大的不良影响。面对垃圾页面作弊技术的发展,传统的针对垃圾页面作弊形式而设计的垃圾识别算法面临着只能处理单一作弊形式,难以及时应对新出现垃圾类型的问题。用户行为分析方法一直是搜索引擎改进算法与系统结构设计的主要依据,垃圾网页的作弊目的必定会对用户的访问行为产生影响,而造成用户对垃圾网页和正常网页访问行为模式的差异,这种差异则可以成为识别垃圾网页的重要依据。本项目的主要目的,就是基于用户行为分析的方法,对垃圾页面的作弊目的及用户访问行为模式进行分析和挖掘,考察并提出相应的垃圾页面识别特征和定位算法;并尝试将识别算法应用于真实网络环境,以提高搜索引擎应对垃圾页面作弊的能力。
search engine;Web spam page;machine learning;user behavior;
垃圾网页的存在对用户使用互联网和搜索引擎正常运营都造成了极大的困扰,而垃圾网页识别也成为了净化网络环境的重要手段之一。针对网络环境中种类繁杂、变化多样的垃圾网页作弊手段,搜索技术人员开展了大量的识别研究工作。然而,种种原因造成这些识别算法在应用于真实互联网环境时仍然面临着巨大的挑战,很难充分发挥其识别效果,这也造成了当今垃圾网页仍旧对搜索引擎应用造成巨大影响的事实。针对垃圾网页识别的鲁棒性和效率问题,项目负责人提出了基于垃圾网页和普通网页的用户浏览行为模式差异进行识别的方法。与基于内容或链接结构特征进行垃圾网页识别的相关工作比较,基于用户行为分析方法的优势体现在首先,用户的信息获取行为直接受到垃圾网页影响,因此其对垃圾网页的访问模式必然与普通网页存在差异;其次,用户行为数据分析的计算量通常较大,但同需要涉及对全部互联网页面的内容或链接结构特征进行提取计算的识别方法比较,算法效率仍然有显著的提升,而且这种计算过程往往只需要离线完成,因此适应于真实的搜索引擎运营需要。正是由于用户行为分析方法在垃圾网页识别方面具有的优势,这方面的研究被广泛认为是搜索引擎技术研究中的前沿,而这种利用“用户群体智慧”(wisdom of the crowds)的识别方法也被众多研究人员认为对于垃圾网页识别效果的提升具有重要的意义。自青年科学基金项目开展以来,项目负责人及研究小组不仅顺利完成了原计划开展的基于用户浏览行为的垃圾网页识别工作,还主动扩展工作内容,开展了基于用户浏览行为分析的网页质量评估和网络非法资源识别研究,进一步验证了项目所提出识别方法的有效性和适用性,有效提升了搜索引擎应对网络数据环境中各种噪音和低质量数据的能力。研究成果发表在包括ACM Transaction on the Web,Decision Support Systems, Journal of Information Retrieval, SIGIR, IJCAI, WSDM, CIKM等高水平国际期刊与会议上。相关成果共发表论文45篇(SCI索引4篇,EI索引30篇,核心期刊21篇),申请专利4项。由于在用户行为分析和垃圾网页识别方面的研究与实践成果,项目负责人于2010年获得了中文信息学会颁发的“钱伟长中文信息处理奖青年创新一等奖”。项目负责人及研究小组也重视将上述研究成果在多个实际互联网中加以应用。