位置:成果数据库 > 期刊 > 期刊详情页
基于数据集属性相似性的聚类算法推荐
  • ISSN号:0469-5097
  • 期刊名称:《南京大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]宁波大学信息科学与工程学院,宁波315210, [2]宁波大学科学技术学院,宁波315210
  • 相关基金:国家自然科学基金(61175054)
中文摘要:

由No Free Lunch理论可知,没有一种聚类算法可完美的解决所有问题。算法推荐是解决此问题的一种有效手段,其核心是数据集相似性的度量。因此提出了一种计算数据集相似性的新方法,通过提取能揭示数据集内在分布和结构的几种属性,然后计算数据集几个属性间的距离,从而得到相似性的度量。首先选择了统计特征向量和二值化向量,然后对数据集进行划分,并计算划分中点到中心点的距离和点对之间的 robust path‐based距离得到数据集的紧凑性和连接性。再通过BP网络训练得到4个属性的参数,进而得到了数据集的相似性度量。选择8种人工数据集和8种UCI上的数据集建立数据集库,并选择了7种具有代表性的聚类算法组成算法库。选择 UCI上的部分数据集进行实验,结果表明本文提出的方法有较好的效果。

英文摘要:

According to the No Free Lunch theory ,no clustering algorithm can solve all problems ,and it is difficult for users to select a suitable algorithm when a number of clustering algorithms are available .An algorithm recommendation system can be a potential solution .In this paper ,we propose a framework of clustering algorithm recommendation .Firstly ,a dataset and an algorithm library are constructed respectively ,and the mapping relationship between the datasets and the algorithms is established by evaluating the performance of the algorithms on the datasets .Then we devise a similarity measure of dataset by calculating the statistical characteristics ,binary vector ,compactness and connectedness attribute of the datasets and weighting the attributes with BP network .For the input dataset ,we find the most similar one in the dataset library by the similarity measure .Finally ,the recommended clustering algorithm can be achieved according to the mapping relationship between the datasets and algorithms .In the proposed framework ,eight artificial datasets and eight UCI real datasets are selected to construct the datasets library ,and seven representative clustering algorithms are used to form the algorithm library .The experiments on some UCI datasets demonstrate the proposed recommendation framework is with satisfact performance .

同期刊论文项目
期刊论文 14 会议论文 3
同项目期刊论文
期刊信息
  • 《南京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:南京大学
  • 主编:龚昌德
  • 地址:南京汉口路22号南京大学(自然科学版)编辑部
  • 邮编:210093
  • 邮箱:xbnse@netra.nju.edu.cn
  • 电话:025-83592704
  • 国际标准刊号:ISSN:0469-5097
  • 国内统一刊号:ISSN:32-1169/N
  • 邮发代号:28-25
  • 获奖情况:
  • 中国自然科学核心期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9316