位置:成果数据库 > 期刊 > 期刊详情页
基于SMOTE和随机森林的Web spam检测
  • ISSN号:1672-3961
  • 期刊名称:山东大学学报(工学版)
  • 时间:2013.1
  • 页码:22-27
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东师范大学信息科学与工程学院,山东济南250014, [2]山东省分布式计算机软件新技术重点实验室,山东济南250014
  • 相关基金:国家自然科学基金资助项目(61170145); 教育部高等学校博士点专项基金资助项目(20113704110001); 山东省自然科学基金资助项目(ZR2010FM021)
  • 相关项目:基于特征建模优化与判别学习的Web spam识别技术研究
中文摘要:

Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。

英文摘要:

Web spam refers to the actions intended to mislead search engines into ranking some pages higher than they deserved, which could significantly deteriorate the quality of searching results. Considering the serious imbalance of the Web spam dataset, it was proposed to use over-sampling method SMOTE to balance the dataset, then to train the classi- fiers with random forests algorithm. The results showed that the SMOTE + RF method was more prominent by means of experimental comparison with the conventional single classifiers and the ensemble learning classifiers. The important pa- rameters of this method were optimized based on experimental results, and the reasons for the improvement of the AUC value after using SMOTE were also analyzed. Experimental results on WEBSPAM UK2007 dataset showed that this method could markedly improve the performance of the classifiers, of which the AUC value could exceed the best result of Web Spam Challenge 2008.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:工学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:山东大学
  • 主编:李术才
  • 地址:山东济南市经十路17923号
  • 邮编:250061
  • 邮箱:xbgxb@sdu.edu.cn
  • 电话:0531-88396452
  • 国际标准刊号:ISSN:1672-3961
  • 国内统一刊号:ISSN:37-1391/T
  • 邮发代号:24-221
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:6258