对半监督聚类集成的机理与关键技术进行系统研究,探索半监督聚类集成的理论基础及通用的学习模型,进而设计其高效算法及并行优化方法。研究内容包括五部分1.建立有效的半监督聚类集成的理论基础,研究半监督聚类集成中的鲁棒性和稳定性等问题;2.构建满足鲁棒性和稳定性的半监督聚类集成通用模型,运用选择性和加权等策略,优选聚类分量,并以约束信息为指导,设计出性能更优的半监督共识函数;3.研究半监督聚类多样性分量的产生方法和聚类差异性的度量方法,以及它们对聚类集成性能的影响;4.分析聚类集成的影响因素,探讨聚类集成的最佳时机;5.研究半监督聚类集成模型处理海量数据的高效算法及其并行优化方法。这些问题的解决,对于改善聚类质量,充分体现半监督聚类集成在解决大规模复杂数据问题中的优势,完善集成学习和半监督学习的理论与方法,提高数据挖掘与知识发现的性能和拓展半监督聚类集成的应用领域等有重要意义。
Semi-supervised learning;Clustering ensemble;Parallel optimization;Clustering diversity;
半监督聚类集成是当前机器学习和人工智能研究领域中一个崭新而富有挑战性的课题,具体体现在其一,如何利用少量的样本先验信息来改善无监督聚类算法的性能;其二,如何从多个聚类结果中找到一个最佳的共识划分,最终获得更高质量和鲁棒性的聚类结果。本项目对半监督聚类集成的机理与关键技术进行了系统分析,研究了半监督聚类集成的理论基础与通用的学习模型,进而设计其高效算法及并行化优化方法,主要取得了以下成果(1)对半监督聚类集成收敛性进行了数学证明和分析,对半监督聚类集成的鲁棒性进行了分析;(2)在半监督聚类集成的通用模型研究方面,提出了基于超图的半监督多蚁群聚类集成、基于链接的模糊聚类集成和软投票聚类集成模型;结合变色龙算法和遗传算法,研究了相应的半监督聚类集成方法;提出了基于约束SOM和改进Cop-Kmeans的聚类集成算法;将谱聚类和协同聚类相结合,讨论了相应的协同半监督聚类集成模型;(3)针对聚类集成分量的多样性问题,给出了基于协方差的选择性聚类集成和基于数据关联的聚类集成方法;(4)对聚类时机问题进行了探讨,将提高网络间泛化能力的早期停止准则应用于聚类集成过程中,给出了基于时机形成的多时机模糊谱聚类的划分方法;(5)基于云计算技术,设计了半监督聚类集成的高效并行优化方法;并在Hadoop平台下,开发了一套聚类集成软件系统,为用户提供大规模数据聚类分析服务。此外,针对高铁安全性能评估和自然语言处理等问题,通过结合半监督学习和集成学习的思想,也开展了相关的研究工作。本项目共发表/录用论文65篇,其中被SCI检索12篇,EI检索36篇;大会特邀报告4次,指南报告1次;承办国际学术研讨会2次,国际学术会议和全国学术会议各1次;培养的2名研究生分别获得ACM成都优秀博士与硕士论文奖。这些成果对改善聚类质量,完善半监督学习和集成学习的理论与方法,提高数据挖掘与知识发现的性能和拓展聚类集成的应用领域等提供了学术思路与解决方案。