东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于分布式减法聚类的不完整数据填充算法

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]大连理工大学软件学院,大连116620
相关基金：国家自然科学基金项目（U1301253）资助;辽宁省自然科学基金项目（201202032）资助.

关键词：大数据, 缺失值填充, 减法聚类, MAPREDUCE模型, big data, data imputation, subtractive clustering, M apReduce

中文摘要：

不完整数据填充是数据预处理领域重要研究课题.传统数据填充算法时间复杂度高,算法不具有分布式处理特性,不满足大数据环境下对数据快速处理的要求.提出一种基于分布式减法聚类的不完整数据填充算法,算法首先利用改进的减法聚类算法对整个数据集进行聚类.为了提高聚类算法的效率,利用云计算技术对聚类算法进行优化,实现基于多级MapReduce的分布式减法聚类算法.然后根据聚类结果和加权距离对缺失数据值进行填充,在保证数据填充精度的同时大幅度降低了填充过程的处理时间.实验结果表明,本文提出的方法能够对大数据进行快速聚类,同时有效保证缺失数据的填充精度.

英文摘要：

Incomplete data imputation is an important issue in data analysis and preprocessing. Existing incomplete data imputation algorithms＇ time complexity is pretty high,and they don＇t have the characteristic of distributed processing. Therefore,they are not suitable for the processing requirement in big data environment. The paper proposes a novel algorithm based on distributed subtractive clustering for imputing incomplete data,which clusters incomplete data directly by designing a newsimilarity metrics,and then cloud computing technology is used to improve the clustering efficiency by deriving M uti-M apReduce-based distributed clustering algorithm.Then the data objects in the same cluster with the target and the weighted distance are utilized to fill in the missing values. The algorithm of this paper significantly reduces the processing time of filling process. M eanwhile,it ensures the filling accuracy of incomplete data imputation. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and ensure the accuracy for filling in missing data effectively.

同期刊论文项目

面向三旧改造的多源异构大数据管理分析与挖掘研究

期刊论文 13

　骨性Ⅲ类牙颌畸形非手术矫治的突破及传动矫正器、技术的研发

期刊论文 12

同项目期刊论文

重要区域保持的图像缩放质量评价方法

部件级表观模型的目标跟踪方法

有效重采样的颜色编辑扩散

不完整大数据的分布式聚类填充算法

珠江三角洲农户整治基塘土地的意愿及影响因素研究

水产养殖水质pH值无线监测系统设计

基于深度学习的不完整大数据填充算法

基于AutoEncoder的增量式聚类算法

基于复杂网络和遗传算法的特征选择方法

一种基于Hadoop的改进减法聚类算法

基于卷积词袋网络的视觉识别

基于物联网的集约化兔场环境监测系统

基于深度学习的不完整大数据填充算法

原奶质量安全风险防控对策研究

Factors and Countermeasures of the Export Diversification of Handan

前牵方向逆时针改变反作用力的有限元分析

包含颞下颌关节的颅面三维有限元模型建立

河北省奶牛养殖循环经济模式研究

他克莫司和来氟米特治疗难治性狼疮性肾炎的对比研究

基于聚类和自动编码机的缺失数据填充算法

支持增量式更新的大数据特征学习模型

美罗培南在预防颅内感染中的临床效果分析

上颌骨前牵引的三维有限元研究进展

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212