位置:成果数据库 > 期刊 > 期刊详情页
基于LDA主题模型和生命周期理论的科学文献主题挖掘
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:G270[文化科学—档案学]
  • 作者机构:[1]南京理工大学经济管理学院,南京210094, [2]巢湖学院数学系,合肥238000
  • 相关基金:本研究系国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(编号:71373124)的阶段性研究成果之一.
中文摘要:

科学文献主题挖掘可以帮助科研人员快速准确的捕捉学科主题的脉络结构,跟踪主题演化发展,并对学科发展趋势做出预测。本文将LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型与科学文献生命周期理论结合起来,提出一种挖掘学科领域生命周期语义信息的方法。为了体现学科领域研究主题的动态语义信息,将科学文献按照时间特征划分,利用文献信息增长规律刻画学科领域生命周期,在此基础上,实现学科生命周期不同阶段、不同层次的主题抽取和主题演化。在由国内新能源领域的科学文献构成的语料库上的实验结果表明,该方法能够监测和追踪新能源研究热点和发展态势,能够为科学研究和科技政策制定提供决策支持。

英文摘要:

Scientific literature topic mining could help researchers catch subject topic context structure, track topic development and make forecast. The paper combines LDA( Latent Dirichlet Allocation) topic model and scientific literature life cycle theory, to present a method, which could mine semantic information of subject area life cycle. In order to reflect the dynamic semantic information of subject topic, the paper divides scientific literatures by time character firstly and describes the subject area life cycle by literature" information growth rule. On this basis, we carry out topic extraction and topic evolution in different stages and levels of subject life cycle. Experimental results on real scientific literature corpus in domestic new energy research field demonstrated that the approach proposed in this paper could monitor and track research hot and development trend of new energy. So, it could provide decision support for scientific research and science and technology policy making.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778