位置:成果数据库 > 期刊 > 期刊详情页
基于独立成分分析和协同训练的垃圾网页检测
  • ISSN号:1672-3961
  • 期刊名称:山东大学学报(工学版)
  • 时间:2013.1
  • 页码:29-34
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东师范大学信息科学与工程学院,山东济南250014, [2]山东省分布式计算机软件新技术重点实验室,山东济南250014
  • 相关基金:国家自然科学基金资助项目(61170145); 教育部高等学校博士点专项基金资助项目(20113704110001); 山东省自然科学基金资助项目(ZR2010FM021)
  • 相关项目:基于特征建模优化与判别学习的Web spam识别技术研究
中文摘要:

垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该方法可有效提高垃圾网页检测精度,同时验证了对两个视图分别进行独立成分分析相比于其他方法更为有效。

英文摘要:

Web spam detection is of great significance,and there only exists a small number of labeled pages.Thus,the semi-supervised co-training was used to detect the Web spam pages.The page features were divided into two views,the content view and the link view.First,the independent components of each view were extracted by the independent component analysis,and then the co-training was used to detect the label of each Web page.Experimental results showed that this method could effectively improve the recognition accuracy of Web spam.The results also verified that two respective independent component analyses of each view were more effective than the other methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:工学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:山东大学
  • 主编:李术才
  • 地址:山东济南市经十路17923号
  • 邮编:250061
  • 邮箱:xbgxb@sdu.edu.cn
  • 电话:0531-88396452
  • 国际标准刊号:ISSN:1672-3961
  • 国内统一刊号:ISSN:37-1391/T
  • 邮发代号:24-221
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:6258