位置:成果数据库 > 期刊 > 期刊详情页
2种加速K-近邻方法的实验比较
  • ISSN号:1000-1565
  • 期刊名称:《河北大学学报:自然科学版》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:河北大学数学与信息科学学院,河北保定071002
  • 相关基金:国家自然科学基金资助项目(71371063);河北省高等学校科学技术研究重点项目(ZD20131028);河北大学研究生创新项目(X2016059)
中文摘要:

K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.

英文摘要:

K-NN(K-nearest neighbors)is a famous data mining algorithm with wide range of applications.The idea of K-NN is simple and it is easy to implement.Both computational time and space complexity of K-NN are all O(n),where,nis the number of instances in a training set.When K-NN encountered larger training sets,especially faced with big data sets,the efficiency of K-NN becomes very low,even KNN is impracticable.Two acceleration approaches for K-nearest neighbors are experimentally compared on 8data sets.The two acceleration approaches are the CNN and MapReduce based K-NN.Specifically,in Hadoop environment,this paper implements K-NN with MapReduce,and experimentally compares with CNN on 8data sets.Some valuable conclusions are obtained,and may be useful for researchers in related fields.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《河北大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:河北省教育厅
  • 主办单位:河北大学
  • 主编:傅广生
  • 地址:保定市五四东路180号
  • 邮编:071002
  • 邮箱:hbdxxbz@hbu.edu.cn
  • 电话:0312-5079413
  • 国际标准刊号:ISSN:1000-1565
  • 国内统一刊号:ISSN:13-1077/N
  • 邮发代号:18-257
  • 获奖情况:
  • 2008年10月荣获第二届中国高校优秀科技期刊奖,2008年荣获2006-2007年度河北省优秀科技期刊奖,2009年8月被河北省教育厅命名为2004-2008年度河北...,2009年8月在中国北方优秀期刊评选活动中被评为"中...,2009年10月荣获2009年全国高校科技期刊优秀编辑质量奖,2010年10月荣获第三届中国高校优秀科技期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),美国剑桥科学文摘,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:5593