本项目从基于云计算平台Hadoop的并行聚类算法设计入手,通过研究并行聚类算法设计的不同策略,得出基于Hadoop平台聚类算法并行化的一般规律。接着,研究适合Hadoop平台特点的节点负载评估模型,采用基于启发式信息的进化算法进行高效地负载平衡和任务调度。最后,结合算法机理和信息安全的方法,研究适合于Hadoop平台的安全挖掘策略,在海量数据聚类中用于保护用户的隐私信息。在上述理论成果的基础上,开发一个基于Hadoop平台的并行聚类原型系统。本项目的相关研究成果将不仅能够用于实际应用中的海量数据聚类,并且能够为其他的海量数据挖掘问题,提供新的解决思路,具有重要的理论意义和应用价值。
clustering;big data;big graph;cloud computing;Hadoop
本项目研究基于Hadoop平台的海量数据聚类的相关问题,主要研究成果包括(1)提出了基于Hadoop平台MapReduce框架的并行网络聚类算法PSCAN,通过在多组不同大小的人工和真实数据集上的实验证明PSAN能够快速、准确地识别出大规模图数据中的聚类、噪声点和中心结点等;(2)提出了大规模图数据集的存储/检索系统GraphStore,通过与HBase在多组不同大小的人工和真实数据集上常用操作的性能比较,证明GraphStore能够实现高效地大规模图的存储与检索,为进一步大规模图数据的挖掘分析提供基础;(3)提出了一种改善了Hadoop负载平衡和任务调度效率的层次Hadoop模型 h-MapReduce,通过将负载过重的任务进一步划分为多个子任务并部署到空闲子节点中并行执行,形成一种层次的Hadoop框架,改善了原Hadoop框架中的负载平衡和任务调度等问题,实验证明对负载不平衡的计算任务,h-MapReduce的性能明显优于MapReduce框架;(4) 提出了一种Avatar改进方案,通过主节点向备用节点转发客户端请求,使用Zookeeper实现故障切换,从而解决Hadoop平台中Namenode的单点故障问题;实验结果证明,该方案具有不丢失数据、快速切换和故障自动恢复等特点;(5) 通过对两个典型的仲裁量子签名方案的分析,详细地介绍了已有仲裁量子签名方案的安全性问题,并指出了该问题存在的原因主要在于一个签名消息与接收方毫无关系;另外,还提出了改进方案来避免这个安全漏洞以增强仲裁量子签名方案的安全性;(6) 通过综合量子密码技术和经典密码技术,提出了一个高效的仲裁量子签名方案,在这个方案中两个参与方均可以与仲裁方共享和使用长期密钥,并且减少了诸如量子态比较等复杂量子操作的使用,只需要执行von Neumann测量;通过消息摘要函数的使用使得这种方案可对任意长度的经典消息进行签名;另外,还首次给出了仲裁量子签名方案安全性的形式化证明。上述研究成果不仅能够最大程度地解决实际应用中海量数据,特别是复杂网络数据的聚类问题,并且能够为其他的海量数据挖掘问题,如分类、关联规则以及序列模式挖掘等,提供新的解决思路,具有重要的理论意义和应用价值。