位置:成果数据库 > 期刊 > 期刊详情页
基于UR-LDA的微博主题挖掘
  • ISSN号:1673-629X
  • 期刊名称:《计算机技术与发展》
  • 时间:0
  • 分类:TP31[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京邮电大学通信与信息工程学院,江苏南京210003, [2]软通动力信息技术有限公司,浙江杭州310000
  • 相关基金:国家自然科学基金青年基金(60902065)
中文摘要:

以微博为代表的社交网络已经成为用户发布和获取实时信息的重要手段,然而这些实时信息中很大一部分都是垃圾或者是冗余的信息。通过有效的手段,精准地发现、组织和利用社交网络海量短文本背后隐藏的有价值的信息,对微博中隐含主题的挖掘,具有较高的舆情监控和商业推广价值。尽管概率生成主题模型LDA(Latent Dirichlet Allocation)在主题挖掘方面已经得到了广泛的应用,但由于微博短文本消息语义稀疏以及文本之间相互关联等特点,传统的LDA模型并不能很好地对它进行建模。为此,基于LDA模型,综合考虑微博的文本关联关系和联系人关联关系,提出了适用于处理微博用户关系数据的UR-LDA模型,并采用吉布斯抽样对模型进行推导。真实数据集上的实验结果表明,UR-LDA模型能有效地对微博进行主题挖掘。

英文摘要:

Social network in particular microblog has become a significant way for users to propagate and retrieve information. However, a large proportion of the real time information is junk or redundant. So the discovery of latent topics in social networks through finding, organizing and using valuable information behind the mass passage with effective ways carries high value in public option mohitoring and commercial promotion. Although probabilistic generative topic model (Latent Dirichlet Allocation,LDA) has been widely applied in the field of topics mining,it cannot work well on microblog, which contains little information and has connection with others. A novel probe- bilistic generative model based on LDA, called UR-LDA, has been proposed which is suitable for modeling the micro-blog data and tak- ing the document relation and user relation into consideration to help mining in micro-biog. A Gibbs sampling implementation for infer- ence the UR-LDA model has been also presented. Experimental results used with actual dataset show that UR-LDA can offer an effective solution to topic mining for microblog.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263