位置:成果数据库 > 期刊 > 期刊详情页
专利文献中关键词抽取方法的改进
  • ISSN号:1002-1965
  • 期刊名称:《情报杂志》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]公安部第一研究所,北京100048, [2]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
  • 相关基金:国家自然科学基金项目“基于本体的专利自动标引研究”(编号:61271304); 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(编号:KZ201311232037)
中文摘要:

专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。

英文摘要:

Patent keywords are the high-level summary of the patent document, correctly extract the key words in the patent document has important implications for patent document classification, indexing, clustering, etc. In this paper, a common word extraction algorithm has been proposed. Based on removing common words, the special position of the comprehensive literature weighted, the lexical units weighted and the penalty function of parallel structure are used to extract the keywords in the patent literature. Experimental results show when the number of the keywords ranges from 5 to 9, the presented method is much better than the baseline method, which show the feasi-ble of the proposed method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报杂志》
  • 北大核心期刊(2011版)
  • 主管单位:陕西省科学技术厅
  • 主办单位:陕西省科学技术信息研究所
  • 主编:薇子
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:qbzz@263.net
  • 电话:029-85529749
  • 国际标准刊号:ISSN:1002-1965
  • 国内统一刊号:ISSN:61-1167/G3
  • 邮发代号:52-117
  • 获奖情况:
  • CSSCI来源期刊、中文核心期刊
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:43855