东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于簇的K最近邻（KNN）分类算法研究

ISSN号：1000-7024
期刊名称：《计算机工程与设计》
时间：0
分类：TP311.12[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京科技大学信息工程学院,北京100083
相关基金：国家自然科学基金项目（60675030/F030502）.

作者：潘丽芳[1], 杨炳儒[1]

关键词： KNN算法, 相似度计算次数, 簇, 中心向量, TF_IDF算法, KNN, comparability computing times, cluster, central vector, TF-IDF

中文摘要：

传统K最近邻（KNN）分类算法为了找出待分类文本的k个邻居,需要与样本空间中的每个样本向量作比较,当训练样本较多时,导致相似度计算次数过多,分类速度下降。为此,改进了传统KNN算法,将训练文本中相似度大的文本合并,称为一簇,并计算簇的中心向量。待分类文本先与每一簇的中心向量计算相似度,当相似度达到某个阈值时,再与簇中的每个文本计算相似度,在一定程度上减少了相似度计算次数,降低了算法的时间复杂度。根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF计算公式。

英文摘要：

Traditional KNN arithmetic compares with every sample vector in sample space in order to find k neighbors of classification of the sample. This causes computing times too much and system performance degrades. So, the traditional KNN arithmetic, dusters training document with highly overlapping word is improved, central vector of cluster is gained. In the text classifcation process, first comparability is compared with central vector of each cluster, then comparability is compared with each document in cluster when comparability with central vector reach threshold. Computing times are reduced at a certain extent. At the same time, improve the IF-IDF formula so as to term＇ s position in the text is different, it should have difference weigh.

同期刊论文项目

多关系频繁模式挖掘模型、方法与一般架构的研究

期刊论文 62 会议论文 11 获奖 4 著作 1

同项目期刊论文

一种新型简单图社区结构发现算法

大型复杂网络中的社区结构发现算法

基于新型集成分类器的非平衡数据分类关键问题研究

基于张量分析的链接聚类算法的研究

生物信息数据挖掘技术的典型应用

知识发现领域的两大猜想

基于复合金字塔模型的蛋白质二级结构预测系统的研究

INDEX-MAXMINER: A NEW MAXIMAL FREQUENT ITEMSET MINING ALGORITHM

一种改进的频繁闭项集挖掘算法

面向语义的精简化多关系频繁模式发现方法

Fuzzy cognitive map and a mining methodology based on multi-relational data resources

基于边聚集系数的社区结构发现算法

增量式广义概念格结构的生成算法研究与实现

基于互信息的多关系朴素贝叶斯分类器

差别矩阵属性约简的信息观解释

句子相似度计算新方法及在问答系统中的应用

量子遗传算法的变尺度混沌优化策略研究

宽度优先的频繁子图高效挖掘新算法

一种挖掘最大频繁子图的新算法

朴素贝叶斯分类器一阶扩展的注记

一种新的多关系朴素贝叶斯分类器

Index-BitTableFI: An improved algorithm for mining frequent itemsets

Index-CloseMiner: An improved algorithm for mining frequent closed itemset

非结构化信息抽取关键技术研究探讨

基于周期采样的数据流频繁项集算法研究

基于信息扩张机制的意外规则处理新方法研究

基于高阶逻辑的复杂结构归纳学习研究

基于Skowron分明矩阵的有效属性约简算法

基于半监督学习的链接预测算法的研究

不平衡类数据挖掘研究综述

基于单分类的协同过滤推荐算法

知识发现领域中当今面临的五类重大问题

异构分布的多元线性回归隐私保护模型

非线性时间序列的相空间重构技术研究

免疫进化机制及其在时序模式挖掘中的应用研究

基于认知心理特征的协调器及相应KDD 过程模型

基于修正差别矩阵的高效属性约简算法

适用于公交站点聚类的DBSCAN 改进算法

基于生成子的频繁项集聚类算法

基于包含索引的频繁闭序列模式挖掘的新算法

复杂结构归纳学习研究

多关系数据分类方法综述

一种模糊认知图分类器的研究

混沌变步长量子遗传算法

知识发现中的因果关联规则挖掘研究

基于时态逻辑的多时间序列挖掘模型

分布式决策树挖掘的隐私保护研究

新型决策树构造方法

一种高效的离线数据流频繁模式挖掘算法

多关系关联规则挖掘算法综述

一种基于滑动窗口的多关系模式频度更新算法

一种基于索引数组的频繁项集高效挖掘算法

基于流形学习的维数约简算法

供应链中的知识交易与定价研究

基于发现特征子空间模型的文本分类算法

基于EFI的可信计算平台研究

一种新的频繁项集精简表示方法及其挖掘算法的研究

一类基于认知心理特征的知识发现新模型

基于认知心理特征的协调器及相应KDD过程模型

一种无背景知识的多关系频繁模式发现算法研究

一种面向B2B垂直搜索的网页信息去噪方法

期刊信息

《计算机工程与设计》
北大核心期刊（2011版）

主管单位:中国航天科工集团
主办单位:中国航天科工集团二院706所
主编：汤铭瑞
地址：北京142信箱37分箱
邮编：100854
邮箱：ced@china-ced.com
电话：010-68389884

国际标准刊号：ISSN：1000-7024
国内统一刊号：ISSN：11-1775/TP
邮发代号:82-425

获奖情况:
中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊

国内外数据库收录:
波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:45616