东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种相关话题微博信息的筛选规则学习算法

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2012.9.9
页码：1-6+39
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算技术研究所,北京100190
相关基金：国家自然科学基金资助项目（60903139,60873243,60933005）;国家863计划重点资助项目（2010AA012502,2010AA012503）
相关项目：Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

作者：莫溢|刘盛华|刘悦|程学旗|

关键词：微博信息筛选, 规则学习, 信息熵, tweets filtering rule mining information entropy

中文摘要：

微博作为一种新型的社会媒体，以其信息的高实时性、话题动态关注、传播速度快的特点，逐渐被人们所接受和使用。筛选出相关话题的微博信息，帮助用户关注话题的动态发展，成为迫切需要解决的问题。由于微博信息篇幅极短、包含的信息和特征少等特点，为相关话题微博信息的筛选带来了新的挑战，而传统的文本分类技术已不再适用。该文提出了基于信息摘的筛选规则学习算法，利用学习得到的规则对微博信息进行有效的筛选。算法利用信息熵来评价规则的好坏，同时基于模拟退火的随机策略使算法中的规则选择避免了过于贪心。分别通过来自新浪微博的约九万条标注数据和TREC2011中约三千条特定话题的标注数据进行实验，该文算法相比于CPAR和SVM算法，学习得到的规则在筛选时取得了较高的F值。

英文摘要：

Microblog as a new social media plays more and more important role in current life due to its real time, trends and Spreading of information. The issue that filtering tweets according to a concerning topic for tracking its trends is of substantial significance to the users. Since a tweet is extremely short, containing less information and textual features, how to filter the short tweets becomes a challenge in that the traditional text classification is no lon- ger applicable. In this paper, we proposed a entropy-based classification rule learning algorithm to filter tweets by topics. The experimental results on nearly 90 000 tweets and 3 000 officially labeled tweets from Sina Weibo and TREC 2011 show that our algorithm achieves higher F-score in filtering tweets by topics than CPAR and SVM algorithms.

同期刊论文项目

支持Ad Hoc无线网络中异构资源面向服务适应性协同的关键技术

期刊论文 17 会议论文 12

Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

期刊论文 113 会议论文 114 获奖 6 专利 39

面向Web话题的多文档文摘研究

期刊论文 17 会议论文 21 获奖 2

同项目期刊论文

一种基于相似性聚类的社会网络合作模式发现方法

文本分类算法研究

一种基于Chord的物联网信息服务方法

NaEPASC: a novel and efficient public auditing scheme for cloud data

基于中文维基百科链接结构与分类体系的语义相关度计算

Construction of unsupervised sentiment classifier on idioms resources

基于社会性标注的本体学习方法

第三届中文倾向性分析评测(COAE2011)语料的构建与分析

一种基于内存的高效在线数据处理服务框架

面向智能搜索的动态知识网络建模

基于传播模拟的消息流行度预测

基于开放网络知识的信息检索与数据挖掘

网民重要度建模方法研究

复杂网络的社区结构

图索引技术研究综述

网络舆情信息源影响力的评估研究

Twitter数据采集方案研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

网络维吾尔文判别及其文本长度下界的探讨

大规模短文本的不完全聚类

面向网络论坛的高质量主题发现

一种基于语料特性的聚类算法

基于随机游走模型的跨领域倾向性分析研究

一种基于空间映射及尺度变换的聚类框架

微博中基于统计特征与双向投票的垃圾用户发现

基于带权图的层次式化社区并行计算方法

A two-stage framework for cross-domain sentiment classification,

Adapting centroid classifier for document categorization

Uncovering the community structure associated with the diffusion dynamics on networks

Spectral methods for the detection of network community structure: a comparative analysis

Comprehensive Quantitative Analysis for Privacy Leak Software Behavior

Bridgeness: a local index on edge significance in maintaining global connectivity,

Contextual Correlation Based Thread Detection in Short Text Message Streams

跨领域倾向性分析相关技术研究

基于多视角特征融合的中文垃圾微博过滤

网络大数据:现状与展望

Design of an Evaluation System for Large Scale Network Attack Based on Emulab

a sampling method for mining user's preference

Detecting Hidden Anomalies Using Sketch for High-speed Network Data Stream Monitoring

Topic Diffusion Behavior Tracking in Online Social Network

基于密度估计的社会网络特征簇挖掘方法

Detecting Spammers in Microblogs

Cross-language Opinion Lexicon Extraction using Mutual-reinforcement Label Propagation.

Modelling and Analysis of an Integrated Scheduling Scheme with Heterogeneous LRD and SRD Traffic

Modelling priority queuing systems with varying service capacity

Degree-strength correlation reveals anomalous trading behavior.

Quality-of-Service Analysis of Queuing Systems with Long-Range-Dependent Network Traffic and Variabl

Providing Hierarchical Lookup Service for P2P-VoD Systems

Auto-sampling of feature words on imbalanced data

基于多维熵值分类的骨干网上异常检测研究

一种新型的层次化动态社区并行计算方法

短文本信息流的无监督会话抽取技术

一种基于LDA的在线主题演化挖掘模型

微博中基于多关系网络的话题层次影响力分析

基于二部图半监督方法的查询日志实体挖掘

面向分面导航的层次概念格模型及挖掘算法

基于半监督话题模型的用户查询日志命名实体挖掘

基于查询意图的长尾查询推荐

排序学习中数据噪音敏感度分析

一种基于社会性标注的网页排序算法

Analytical Modelling and Optimization of Congestion Control for Prioritized Multi-Class Self-Similar

基于情感关键句抽取的情感分类研究

基于随机博弈模型的网络攻防量化分析方法

Modeling the clustering in citation networks

Stochastic Game Net and Applications in Security Analysis for Enterprise Network

Mining Topical Influencers Based on the Multi-Relational Network in Micro-Blogging Sites

A dimensionality reduction framework for detection of multiscale structure in heterogeneous networks

基于热传导模型的更新摘要算法

Improving Text Categorization with Semantic Knowledge in Wikipedia

Covariance, correlation matrix, and the multiscale community structure of networks,

开放式环境下一种基于信任度的RBAC模型

基于吸收态随机行走的两阶段效用性查询推荐方法

大规模层次分类中的候选类别搜索

一种基于情感符号的在线突发事件检测方法

基于词向量的开放文本领域概念识别方法

网络信息安全测试平台设计与实现

大规模层次分类问题研究及其进展

对等点播系统中节点搜索机制研究

基于带权图的层次化社区并行计算方法

Symbolic representation based on trend features for knowledge discovery in long time series

网民重要度建模方法研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

网络维吾尔文判别及其文本长度下界的探讨

Virtual node based adaptive routing in wireless ad hoc networks

Flexible Architecture based Approach for Dynamic Service Composition

Classifying rendezvous tasks of arbitrary dimension

Discovering AODV‐based multipath routes in wirelessad hoc networks

服务化跨组织协同模型

Binary Almost-Perfect Sequence Sets

资源受限Web服务

基于二部图半监督方法的查询日志实体挖掘

基于半监督话题模型的用户查询日志命名实体挖掘

排序学习中数据噪音敏感度分析

CPU和GPU的协同工作

基于联合概率矩阵分解的上下文广告推荐算法

Twitter中近似重复消息的判定方法研究

网民重要度建模方法研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

网络维吾尔文判别及其文本长度下界的探讨

大规模短文本的不完全聚类

面向网络论坛的高质量主题发现

基于二部图半监督方法的查询日志实体挖掘

基于半监督话题模型的用户查询日志命名实体挖掘

排序学习中数据噪音敏感度分析

基于热传导模型的更新摘要算法

开放式环境下一种基于信任度的RBAC模型

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136