东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

大数据的密度统计合并算法

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]南京航空航天大学理学院,江苏南京211100, [2]南京理工大学计算机科学与技术学院,江苏南京210094
相关基金：国家自然科学基金（61103058,61233011）

关键词：聚类, 抽样, 代表点, 密度, 大数据, clustering, sampling, leader, density, large data

中文摘要：

针对处理大数据时传统聚类算法失效或效果不理想的问题,提出了一种大数据的密度统计合并算法（density-based statistical merging algorithm for large data sets,简称DSML）.该算法将数据点的每个特征看作一组独立随机变量,并根据独立有限差分不等式获得统计合并判定准则.首先,使用统计合并判定准则对Leaders算法做出改进,获得代表点集;随后,结合代表点的密度和邻域信息,再次使用统计合并判定准则完成对整个数据集的聚类.理论分析和实验结果表明,DSML算法具有近似线性的时间复杂度,能处理任意形状的数据集,且对噪声具有良好的鲁棒性,非常有利于处理大规模数据集.

英文摘要：

To tackle the failure of traditional clustering algorithms in dealing with large-scale data, the paper proposes a density-based statistical merging algorithm for large data sets （DSML）. The algorithm takes each feature of data points as a set of independent random variable, and gets statistical merger criteria from the independent bounded difference inequality. To begin with, DSML improves Leaders algorithm by using the statistical merger criteria, and makes the improved algorithm as the sampling algorithm to obtain representative points. Secondly, combined with the density and the neighborhood information of representative points, the algorithm uses statistical merger criteria again to complete the clustering of the whole data set. Theoretical analysis and experimental results show that, DSML algorithm has nearly linear time complexity, can handle arbitrary data sets, and is insensitive to noise data. This fully proves the validity of DSML algorithm for large data sets.

同期刊论文项目

复杂结构的“自发性选择”聚类研究

期刊论文 9 会议论文 6

高维视觉信息的低维表示、度量与识别的理论和方法

期刊论文 10

同项目期刊论文

多层核心集凝聚算法

非凸加权核范数及其在运动目标检测中的应用

Tent混沌人工蜂群与粒子群混合算法

模糊图像盲复原的鲁棒自适应滤波算法

层次分类方法综述

一种疲劳驾驶检测系统中快速人眼检测方法

基于光变油墨透射图像的人民币鉴伪技术

SOFT IMAGE SEGMENTATION BASED ON CENTER-FREE FUZZY CLUSTERING

基于半监督回归学习的人脸几何美丽分数

两种基于图论的聚类算法改进(英文)

A tree-structured framework for purifying "complex" clusters with structural roles

基于显著性加权颜色和纹理的图像检索

一种新的基于区域生长的彩色图像分割算法

多层核心集凝聚算法

利用核心集粗化的多层聚类算法

Soft Image Segmentation Based on Center-Free Fuzzy Clustering

SOFT IMAGE SEGMENTATION BASED ON CENTER-FREE FUZZY CLUSTERING

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609