东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种半监督的中文垃圾微博过滤方法

ISSN号：1003-0077
期刊名称：《中文信息学报》
分类：TP393.098[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：清华大学计算机科学与技术系,北京100084
相关基金：国家自然科学基金（61332007,61272227）

关键词：垃圾微博过滤, 半监督学习, EM算法, 朴素贝叶斯, spam tweet, naive bayesian classifier, expectation maximization, semi-supervised learning

中文摘要：

微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。

英文摘要：

Microblogging sites are one of the most popular information sharing platforms today. However, among the large amount of posted published every day, spare texts are seen everywhere： users utilize spam posts to advertise, broadcast, boast their own products, and defame their competitors. Therefore, filtering spare tweets is a criti- cal and fundamental problem. In this paper, we propose a semi-supervised algorithm based on Expectation Maximization and Naive Bayesian Classifier （EM-NB）, which is able to filter spam tweets effectively using only a small amount of labeled data. The experimental results on more than 140 thousand tweets from Sina Weibo show that our method achieves higher accuracy and F-score than baselines.

同期刊论文项目

信息多样性和信息摘要的关键问题研究

期刊论文 2

面向大数据的机器学习理论与方法

期刊论文 3

同项目期刊论文

Finding Nuggets in Patent Portfolios： Core Patent Mining and Its Applications

神经采样

贝叶斯机器学习前沿进展综述

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136