位置:成果数据库 > 期刊 > 期刊详情页
一种基于类别分布信息的文本特征选择模型
  • ISSN号:0252-3116
  • 期刊名称:《图书情报工作》
  • 时间:0
  • 分类:G350[文化科学—情报学]
  • 作者机构:[1]解放军理工大学理学院, [2]解放军理工大学气象海洋学院
  • 相关基金:本文系国家自然科学基金“直觉模糊聚类理论及其应用”(项目编号:71071161)和江苏塔自然科学基金“模糊语言模型研究”(项目编号:BK2012511)研究成果之一.
中文摘要:

TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时1DF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,FI值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。

英文摘要:

TF-IDF is a commonly used text feature selection method. Based on the characteristics of the model selection ideas and using the feature within class distribution and the distribution between class information as the foundations, we propose a model of text feature selection based on the category distribution information through the introduction of weighting factor distribution within classes and between classes. The new model makes the TF part contains the within class text frequency information. At the same time, the IDF part contains the between class frequency information. The subsequent text classification experiments proved that the average recall rate, precision rate increased 6. 4%, 7.8% respectively. At the same time, the F1 value increased about 7%. We demonstrate the effectiveness of the text feature selection model proposed in this paper.

同期刊论文项目
期刊论文 62 著作 2
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601