云计算的兴起,迫切需要对不同分布式计算环境下的并行数据挖掘算法展开深入研究。本项目研究分布式计算环境下的并行数据挖掘算法与理论,旨在解决在分布式计算环境下如何提供高效率的、鲁棒的和负载平衡的并行数据挖掘服务问题。研究数据挖掘算法的并行化策略问题,提出实用、高效的并行算法;研究数据挖掘算法对Hadoop,P2P,Multi-Agent三个分布式计算环境的适应性问题,包括算法选择、算法设计、参数调节、性能提高问题,找到数据规模、算法复杂性、节点数之间的关系,发现加速比和可扩展性的影响因素;研究数据挖掘任务调度与负载均衡,提出以节点状态、存储能力、活动周期、最近活动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法;研究通讯代价问题,提出通讯代价小的通讯策略;基于算法机理提出安全挖掘策略,用于解决隐私保护问题。开发并行数据挖掘算法与评估原型系统。
distributed computing;parallel data miningdata priva;cloud computing;P2P;Multi-Agent
本项目研究了分布式计算环境下特别是Hadoop环境下的并行数据挖掘算法,取得了一系列研究成果,在IEEETKDE等国际期刊上发表录用文章39篇,在IJCAI、AAAI、CIKM等国际会议上发表论文32篇,总计被SCI收录22篇,被EI收录73篇。获得SDM10国际会议最佳论文提名,获得CIKM10最佳论文提名。申请国家发明专利2项,获得1项,获得软件著作权3项。在中国有关云计算的大会上做特邀技术报告4次。在分布式数据挖掘计算环境比较方面,研究了数据挖掘算法对Hadoop,P2P,Multi-Agent 三个分布式计算环境的适应性问题,发现Hadoop环境是目前大数据挖掘高效、简便、实用的计算环境,P2P数据挖掘更适合企业或机构内部数据的分类和聚类等数据挖掘任务。在此基础上,着重在Hadoop平台基础上采用MapReduce编程模式,在并行数据挖掘算法研究中选择并行度高、复杂度低、精度有保证的算法进行并行,提出了并行增量极端支持向量机分类算法;并行关联规则算法;并行k-近邻;并行朴素贝叶斯等分类算法;并行决策树算法;基于KD-Tree的异常点并行发现算法;并行KMeans聚类算法设计;并行CLARANS聚类算法;并行PLSA算法;并行ELM回归分析算法等实用、高效的并行算法,实现了基于MapReduce的一系列高效并行数据预处理和数据挖掘算法。针对这些算法,在算法并行设计、参数调节规律、性能提高途径方面进行了深入研究,通过实验给出了不同算法在不同数据规模、算法复杂性、节点数情况下并行效率包括加速比、扩展性、伸缩率,给出了不同算法影响加速比和可扩展性的因素。研究基于数据变换的隐私保护方法,提出了保护数据隐私的基于PLSA的多模型合并算法。在这个过程中不需要披露基础数据,这样保护了数据隐私。除此之外,还在基础的数据挖掘与机器学习算法方面开展了深入研究,取得了一系列成果,包括迁移学习算法,基于超曲面的系列算法,基于进化规划的FCMBP模糊聚类改进算法,研究了神经网络算法选择、算法优化、参数调节、性能提高等问题,开发了高效实用的并行数据挖掘算法与评估系统,系统已成功用于中兴通信、国家电网、信息安全、无锡物联网等行业领域的TB级大数据挖掘,为企业创造了可观的经济效益。