现实世界不断增长的海量数据对并行计算提出了更紧迫的要求,基于骨架的并行编程模型因具有良好的可编程性而利于并行计算的普及,然而目前较有影响的MapReduce模型对复杂问题的并行求解并不能充分支持。聚类问题是一个NP难的问题,大规模数据集上的聚类是当前模式识别等应用领域的基本问题之一,只能通过并行(分布式)计算有效求解。本项目将首先研究各种聚类问题及算法,对其可并行性进行形式化分析,重点研究进化算法对聚类问题的近似求解方法,然后应用算法骨架的思想,分析进化聚类算法中可并行实现的公共模式,构造出相应的算法骨架,并在PC集群环境下实现并行进化算法骨架的框架系统。在本框架系统中,用户不需涉及底层并行编程,只需编写骨架参数所需的顺序代码,就可以得到进化聚类算法的并行程序。由于并行骨架的问题无关性,该骨架框架还可扩展应用于开发进化算法求解类似的其他最优化问题的并行程序。
data mining;large-scale clustering;parallelization;swarm intelligence algorithm;information retrieval
分类与聚类是数据挖掘领域中的重要研究课题,随着数据挖掘应用的深入和数据的爆炸式增长,对高维数据和大规模数据进行分析和研究也越来越普遍和重要。数据挖掘的计算量随着数据维数的增高和数据集的增大呈指数级增长,大规模海量数据挖掘的应用程序执行效率难以令人满意。本课题从数据维数和数据量两个方面进行研究,一方面从模型角度研究对高维数据的预处理方法,另一方面从算法角度对数据挖掘算法进行并行化研究,从而提高高维大规模数据的挖掘性能。除了对大规模数据分类与聚类相关算法及其并行化的研究之外,项目组还对大规模数据挖掘中的其他应用问题进行了研究,包括对大规模文本信息检索模型的研究、大规模图像挖掘技术的研究、群体智能优化算法及其并行化的研究等,这些研究都为本课题关键内容的研究从不同角度提供了理论、方法和技术上的支持。围绕本项目研究内容,项目组成员发表论文25篇,包括国际会议论文和国际国内期刊论文,其中国际期刊论文6篇、国际会议论文4篇和国家A类学术期刊论文4篇,成功组织承办第八届全国信息检索学术会议(CCIR2012)和第四届自然语言处理与中文计算国际会议(NLP&CC 2015),培养统招硕士毕业生14人,完成了项目计划书中预定的各项任务。