位置:成果数据库 > 期刊 > 期刊详情页
文本分类中一种基于选择的二次特征降维方法
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]解放军理工大学理学院,南京210007
  • 相关基金:国家自然科学基金资助项目(编号:70571087)
中文摘要:

文本特征降维对文本分类的精确性有着非常重要的影响。本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法。随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度。

英文摘要:

The quality of text feature reduction affects the accuracy of text categorization.Due to the deficiency of traditional TF-IDF without considering the distribution of feature words among classes and the small frequency sort words have been restrain, and more the shortage of MI without considering the text class tilt,the paper improves these disadvantage.Basing on this,the paper proposes a combined text feature selection algorithm based on category information.The test about text categorization shows that this method is valid in improving the accuracy of text categorization.

同期刊论文项目
期刊论文 77 会议论文 10 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778