位置:成果数据库 > 期刊 > 期刊详情页
结合时序和语义的中文微博话题检测与跟踪方法
  • ISSN号:1009-0134
  • 期刊名称:《制造业自动化》
  • 时间:0
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:浙江工业大学计算机科学与技术学院,浙江杭州310023
  • 相关基金:国家自然科学基金资助项目(No.U1509214);浙江省自然科学基金资助项目(No.LY16F020035)
中文摘要:

微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题检测与跟踪。

英文摘要:

As a widely used tool in social networks, microblog is definitely with short document, quick broadcasting and topic changeable, which results in big challenging for social topic detection and tracking. A new systematic framework for micro-blog topic detection and tracking was proposed based on the microblog clustering using temporal trend and semantic similarity. Firstly, a feature words selection method for hot topics was presented by defining the temporal frequent words set. Secondly, an initially clustering was conducted depending on the selected temporal frequent words set. As far as the overlaps between initial clusters concerned, an effective overlap elimination algorithm was proposed, by introducing the extended short document semantic membership, to separate any possible overlapped initial clusters. Finally, an aggregated topic clustering method was employed using the cluster semantic similarity matrix. The experiments were at last done on some real-world dataset from Sina microblog. It show that the method for chinese microblog topic detection and tracking can obtain excellent performance and results.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《制造业自动化》
  • 北大核心期刊(2011版)
  • 主管单位:中国机械工业联合会
  • 主办单位:北京机械工业自动化研究所
  • 主编:陈维
  • 地址:北京德胜门外教场口1号
  • 邮编:100011
  • 邮箱:maogp@riamb.ac.cn
  • 电话:010-62372961
  • 国际标准刊号:ISSN:1009-0134
  • 国内统一刊号:ISSN:11-4389/TP
  • 邮发代号:2-324
  • 获奖情况:
  • 机械行业优秀期刊,中国期刊方阵“双效”期刊,获2004-2006年机械行业优秀期刊二等奖
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版)
  • 被引量:17230