位置:成果数据库 > 期刊 > 期刊详情页
不同语料下基于IDA主题模型的科学文献主题抽取效果分析
  • ISSN号:0252-3116
  • 期刊名称:《图书情报工作》
  • 时间:0
  • 分类:G202[文化科学—传播学]
  • 作者机构:[1]南京理工大学经济管理学院,南京210094, [2]巢湖学院应用数学学院,合肥238000
  • 相关基金:本文系国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(项目编号:71373124)和安徽省高校自然科学基金研究项目(项目编号:KJ20138165、KJ2015A270)研究成果之一.
中文摘要:

[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于

英文摘要:

[ Purpose/significance] Latent Dirichlet Allocation (LDA) is used to discover subject topic, hot topic and development trend in scientific and technical intelligence analysis. The paper evaluates the effect of LDA topic extraction with three common scientific literature corpuses, which are structured by keywords, abstracts or mixture of keywords and abstracts. The purpose of this thesis is to promote the effect of using LDA in science and technology intelligence analysis. [ Method/ process ] We analyze effect of topic extraction by LDA under three above-mentioned corpuses and evaluate the results by two pat- terns. One is quantitative analysis by using quantitative indexes, including precision rate, recall rate, F-score and information entropy ; the other one is qualitative analysis, including two dimensionalities : extent of topic extraction and granularity of topic. [ Result/conclusion] Experiments on scientific and technical literatures of domestic wind energy field show that the effect of top- ic extraction by LDA with abstracts or mixture of keywords and abstracts is better than LDA with keywords, whether from quantitative analysis or qualitative analysis. LDA with abstracts and mixture of keywords and abstracts has different application scenarios. The former has larger extent of topic extraction and the latter has smaller granularity of topic.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601