位置:成果数据库 > 期刊 > 期刊详情页
微博短文本预处理及学习研究综述
  • ISSN号:0252-3116
  • 期刊名称:图书情报工作
  • 时间:2013.6.5
  • 页码:125-131
  • 分类:G354[文化科学—情报学] TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]广东外语外贸大学图书馆
  • 相关基金:本文系国家自然科学基金青年项目“微博虚假信息及早检测与有效控制关键技术研究”(项目编号:61202271)、国家自然科学基金项目“不平衡数据的学习算法及应用研究”(项目编号:61070061).
  • 相关项目:微博虚假信息及早检测与有效控制关键技术研究
作者: 王连喜|
中文摘要:

认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。

英文摘要:

As the features of microtext are sparse and highly redundant, the pre-processing and learning methods are the key problems of the data mining for microblog, and have a very important and wide application in many ways. The paper analyzes the characteristics of the microtext, and conducts an introduction and summarization to pre-processing and learning methods and their applications, including short text representation model, short text feature expanding and selection, classification and clustering for short text, hot events detection and automatic summarization, and so on. At last, this paper also proposes the limitations of the recent study, and points out the directions for future research.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601