位置:成果数据库 > 期刊 > 期刊详情页
文本分类中基于训练样本空间分布的K近邻改进算法
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]解放军理工大学理学院,南京210007
  • 相关基金:国家自然科学基金资助项目(直觉模糊聚类理论及其应用,编号:71071161)
中文摘要:

KNN算法是文本分类中广泛应用的算法。作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能。合理的样本剪裁以及样本赋权方法可以提高分类器的效率。提出了一种基于样本分布状况的KNN改进模型。首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象。试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率。

英文摘要:

In text categorization, the KNN algorithm is used widely, It is an example-based algorithm. The number of training samples and their position influence the algorithm' s classification performance. A reasonable method for reducing the amount of training data and an optimal weighting way can improve the efficiency of classification. This paper proposes an improved KNN model based on the sample distribution. Firstly, by calculating the distance between the samples, we remove some samples from training set. Secondly, take into account the category deflection; we bring up a better weighting method in order to overcome the defect that the bigger class, higher density of training samples dominated in KNN. The result of experiment shows that the improved KNN classification algorithm improves the efficiency of its classification.

同期刊论文项目
期刊论文 62 著作 2
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778