位置:成果数据库 > 期刊 > 期刊详情页
动态时间分布LDA的网络舆情热点词链提取研究
  • ISSN号:1007-3558
  • 期刊名称:《江西科技师范大学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:江西科技师范大学数学与计算机科学学院,江西南昌330038
  • 相关基金:国家自然科学基金项目(61662032)、江西省社会科学规划项目(14TQ04)、江西省教育厅科技课题(GJJ150816).
作者: 万红新
中文摘要:

由于网络舆情文本的数据量非常大,用人工方式很难从舆情文本中发现舆情热点。利用LDA(Latent Dirichlet Allocation)主题模型的文本降维及词语聚类功能。能够从海量的舆情文本中自动提取所关注的焦点主题词。但由于缺乏动态的时间分布机制,LDA难以捕捉随时间变化的热点词链。本文提出了加入动态时间层的DTD-LDA(Dynamic Time Distribution LDA)模型.增加了文档-时间和时间-主题的动态分布机制.改善了LDA主题词对时间变化的敏感性,可以有效提取迅速变化的舆情文本热点词链。实验表明,DTD-LDA相比较同类模型,在动态热点词链的提取上具有更好的准确率和召回率。

英文摘要:

In view of the large amount of opinion data, it is difficult to effectively carry out the analysis and treatment of hotspots by manual way. The Latent Dirichlet Allocation topic model can reduce text dimension and realize words clustering, as well as extract the focus topical words from the large number of the public opinion text automatically. Due to the lack of time layer for dynamic distribution mechanism, LDA is unable to capture the hotspot word chains with the time variation. This paper put forward the dynamic time layer added model DTD-LDA, which forms the dynamic distribution mechanism in document-time and time-topic layer, and improves the sensitivity of topic words in LDA for the changing time, so makes the model find the hotspot words chain that change rapidly in deferent time effectively. The experiments show that DTD-LDA discovers hotspot word chains with better precision and recall than other similar topic models.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江西科技师范大学学报》
  • 主管单位:江西科技师范大学
  • 主办单位:江西科技师范大学
  • 主编:夏焕堂
  • 地址:江西省南昌市红角洲学府大道589号
  • 邮编:330038
  • 邮箱:jxkjsyxb@163.com
  • 电话:0791-83832345
  • 国际标准刊号:ISSN:1007-3558
  • 国内统一刊号:ISSN:36-1325/Z
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 中国国家哲学社会科学学术期刊数据库
  • 被引量:257