位置:成果数据库 > 期刊 > 期刊详情页
基于多结构特征的垃圾博客识别研究
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学计算机与信息技术学院,山西太原030006, [2]长治学院计算机系,山西长治046011
  • 相关基金:基金项目:国家自然科学基金项目(60775041).
中文摘要:

为解决日益严重的垃圾博客问题,对产生垃圾博客的作弊技术和相应的识别技术进行了研究。通过对大量中文垃圾博客的分析,结合对作弊者目的的研究,提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法。在特征提取的基础上,提出了基于多结构特征的识别方法,并建立了相应的系统模型。使用支持向量机和朴素贝叶斯模型作为分类器进行了实验,并与经典的基于内容的方法进行了对比。实验结果表明,在小的训练集上,基于多结构特征的方法正确率达到90%以上,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客和正常博客。

英文摘要:

To address the growing problem of Splog, the generating Splog technology and the corresponding recognition technology are studied. By analyzing a large number of Chinese Splog and the purposes of Splog maker, a method of extracting feature from blog structure features is proposed such as the user' s name, post time interval, post content, anchor text and link address, classification labels. Based on the feature extraction, a method based on the multiple structure features is proposed. The naive Bayesian model and support vector machines are used as the classifier in our model. Experiments on a small train dataset show that the method based on multiple structure features reaches an accuracy of 90%. Compared with the contend based method, proposed method increases the accuracy by 6%, indicating that the method can identify Splogs effectively.

同期刊论文项目
期刊论文 5 会议论文 2 专利 1 著作 1
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616