位置:成果数据库 > 期刊 > 期刊详情页
基于集成学习的自动标引方法研究
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:G254.2[文化科学—图书馆学] G434[文化科学—教育学;文化科学—教育技术学]
  • 作者机构:[1]南京理工大学经济管理学院信息管理系,南京210094, [2]中国科学技术信息研究所,北京100038
  • 相关基金:本研究受中国博士后科学基金资助项目(20080430463)、教育部人文社会科学研究一般项目(08JC870007)、南京理工大学科研启动基金项目(AB41123)资助.致谢:感谢论文评审人对本文提出修改建议.
作者: 章成志[1,2]
中文摘要:

目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。

英文摘要:

Currently, most methods of automatic indexing cannot use the features of documents effectively. The statistical machine learning models including support vector machine, conditional random fields, can use the features of documents more sufficiently and effectively. At the same time, the automatic indexing models performance varies in the task of automatic indexing. ff we combine these models to index the documents by ensemble learning, the performance of indexing can he improved. In order to improve the performance of indexing, a method which integrates the statistical machine learning models and ensemble learning is proposed in this paper. This method indexes the documents through voting of multiple indexing models. Experimental results show that the indexing method based on ensemble leaning outperforms other methods according to the precision and recall measurement. Moreover, the indexing model based on ensemble learning with the weighted voting outperforms the model without the weighted voting.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778