位置:成果数据库 > 期刊 > 期刊详情页
基于簇的K最近邻(KNN)分类算法研究
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP311.12[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京科技大学信息工程学院,北京100083
  • 相关基金:国家自然科学基金项目(60675030/F030502).
中文摘要:

传统K最近邻(KNN)分类算法为了找出待分类文本的k个邻居,需要与样本空间中的每个样本向量作比较,当训练样本较多时,导致相似度计算次数过多,分类速度下降。为此,改进了传统KNN算法,将训练文本中相似度大的文本合并,称为一簇,并计算簇的中心向量。待分类文本先与每一簇的中心向量计算相似度,当相似度达到某个阈值时,再与簇中的每个文本计算相似度,在一定程度上减少了相似度计算次数,降低了算法的时间复杂度。根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF计算公式。

英文摘要:

Traditional KNN arithmetic compares with every sample vector in sample space in order to find k neighbors of classification of the sample. This causes computing times too much and system performance degrades. So, the traditional KNN arithmetic, dusters training document with highly overlapping word is improved, central vector of cluster is gained. In the text classifcation process, first comparability is compared with central vector of each cluster, then comparability is compared with each document in cluster when comparability with central vector reach threshold. Computing times are reduced at a certain extent. At the same time, improve the IF-IDF formula so as to term' s position in the text is different, it should have difference weigh.

同期刊论文项目
期刊论文 62 会议论文 11 获奖 4 著作 1
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616