位置:成果数据库 > 期刊 > 期刊详情页
一种新兴的学科领域历史根源探究方法:RPYS
  • ISSN号:0252-3116
  • 期刊名称:《图书情报工作》
  • 时间:0
  • 分类:G252.7[文化科学—图书馆学]
  • 作者机构:武汉大学信息管理学院,信息检索与知识挖掘实验所,武汉430072
  • 相关基金:国家自然科学基金面上项目“面向词汇功能的学术文本语义识别与知识图谱构建”(71473183),国家自然科学基金面上项目“基于多语义信息融合的学术文献引文推荐研究”(71673211).
中文摘要:

当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,证明了学术文本结构功能特征在关键词自动提取上的重要性。

英文摘要:

The current approach for automatic extraction of keywords is mostly based on the frequency and docu- mentation frequency of the alternative words, which are ignored in the inner structure of academic text and leads to bad work of keywords extraction. In this article, we considered an academic text as a collection of five struc- ture-function models, proposed a mixed feature method with academic text structure features, and implemented it in the computer science documents by a classification technique called support vector machine (SVM) and a ranking model named LamdbaMART. The results show that the methods we put forward are more effective than the baseline model with base features and a 10.75% relative improvement has been observed on the precision in classification of experiment, which proves that the academic text structure is important for automatic keywords extraction.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601