位置:成果数据库 > 期刊 > 期刊详情页
广告型微博的识别方法
  • ISSN号:1000-1220
  • 期刊名称:小型微型计算机系统
  • 时间:2014.12.15
  • 页码:2702-2707
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
  • 相关基金:国家自然科学基金项目(61171159,61271304)资助; 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)资助
  • 相关项目:网页内容真实性评价研究
中文摘要:

微博空间内充斥着大量广告信息,这些广告信息对舆情分析造成了极不利的影响.分析广告型微博特点,提出了一种广告型微博识别方法:在传统文本特征的基础上,引入"非活跃期微博数"、"微博重复度"、"特征词对权重"三类特征,并结合支持向量机模型对微博文本进行分类,识别广告微博发布者;分析广告微博发布者与普通用户的差异,提取广告微博发布者的"主题"特征,并面向用户对微博文本进行过滤,实现对广告型微博的识别.实验结果正确率为87.6%,召回率为97.2%,F值为91.6%,证明该方法能高效准确地识别广告型微博.

英文摘要:

Tbere exists large amount of advertising information which has adverse effect on web public opinion analysis in microblog space. Detecting the advertising microblogs, filtering the microblogs,is becoming an urgent problem. Having analyzed the features of microblog base on massive data, a detecting approach for advertising microblogs is proposed in this paper: add three new features named "word pair weight feature" ," multiplicity" and "post frequency" to the classification algorithm base on traditional text features and SVM model to detect the advertisers;analyze the difference between advertisers and legitimate users, extract the topic feature of every user, filter the microblogs facing users and accomplish the advertising microblog detection. The results based on this method can achieve 86. 7% precision,97. 2% recall and 91.6% F-score. It shows that our method can effectively detect the advertising microb- logs.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212