位置:成果数据库 > 期刊 > 期刊详情页
基于MB-HDP模型的微博主题挖掘
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中山大学信息科学与技术学院计算机科学系,广州510006
  • 相关基金:国家自然科学基金(61033010,61272065,61472453,U1401256); 广东省自然科学基金(S2011020001182,S2012010009311); 广东省科技计划项目(2011B040200007,2011B031700004,2012A010701013)资助
中文摘要:

主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型.

英文摘要:

Topic models have become important tools to mine latent topics from microblogs.However,most existing models are derived from Latent Dirichlet Allocation(LDA)and require a pre-determined number of topics.In order to mine topics from microblogs automatically,we propose a hierarchical Bayesian nonparametric model named MicroBlog-Hierarchical Dirichlet Process(MB-HDP).Firstly,our model assumes non-exchangeability of data which is suitable for the microblog application.Secondly,to tackle the sparsity problem caused by the short tweets,the temporal information,user's interests,and semantic #hashtags are integrated to aggregate topic-related tweets into lengthy pseudo-documents.Thirdly,the Chinese Restaurant Franchise(CRF)extension is adopted in modeling topics.Finally,we present a Markov Chain Monte Carlo(MCMC)sampling for posterior inference in the MB-HDP.Experimental results show that the MB-HDP clearly outperformed both LDA and HDP from three different perspectives:the quality of generated latent topics,the perplexity of held-out content and the model complexity.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433