位置:成果数据库 > 期刊 > 期刊详情页
基于多视角特征融合的中文垃圾微博过滤
  • ISSN号:1671-9352
  • 期刊名称:山东大学学报(理学版)
  • 时间:2013
  • 页码:53-58
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190, [2]中国科学院大学,北京100190, [3]国家计算机网络应急技术处理协调中心,北京100029
  • 相关基金:国家重点基础研究发展计划(“九七三”计划)项目(2012CB316303,2012BAH39804);高技术研究发展计划(“八六三”计划)项目(2012AA011003);国家自然科学基金重点资助项目(60933005,61232010);国家自然科学基金面上项目(61173(Y34);国家242项目(2012F124)
  • 相关项目:通讯网络中可变服务容量调度系统的性能建模、分析与优化
中文摘要:

微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。

英文摘要:

As microblog contains valuable information, data analysis on microblog such as topic detection has become a research hotspot. Due to the high flexibility of microblog's content and form, noisy data is a big challenge for microblog analysis. Therefore, no effective method has been developed for non-public topic Chinese spam microblog filtering until now. To fill this gap, a new method was proposed to fuse multi-angle features extracted from both the content and struc- ture of microblog. The fused features were then employed for filtering spam microblog with classifiers. Experiments on real data demonstrate that the fusion of multi-angle features can effectively improve the performance of spam filtering.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:山东大学
  • 主编:刘建亚
  • 地址:济南市经十路17923号
  • 邮编:250061
  • 邮箱:xblxb@sdu.edu.cn
  • 电话:0531-88396917
  • 国际标准刊号:ISSN:1671-9352
  • 国内统一刊号:ISSN:37-1389/N
  • 邮发代号:24-222
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:6243