聚类分析是数据挖掘、机器学习等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、图像分割和文本聚类等领域。作为传统聚类算法的重要扩展,聚类集成技术具备诸多优点,已成为机器学习领域的研究热点之一,其中的关键问题在于如何将聚类成员组合为更加优越的结果。现有的聚类集成技术尚不能同时满足速度快、效果好的要求。本课题重点研究文本聚类集成中的共识函数设计问题,首先从子空间相似度的角度形式化描述该问题,并从矩阵Frobenius范数低秩近似的角度进行求解,从而设计出高效率、高质量的大规模文本聚类集成模型。主要研究内容包括(1)文本聚类成员产生方法研究;(2)共识函数设计问题形式化描述方法研究;(3)基于矩阵Frobenius范数低秩近似的共识函数设计方法研究。本课题的研究成果可用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。
data mining;machine learning;clustering analysis;cluster ensemble;document clustering
聚类分析是数据挖掘、机器学习等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、图像分割和文本聚类等领域。作为传统聚类算法的重要扩展,聚类集成技术具备诸多优点,已成为机器学习领域的研究热点之一,其中的关键问题在于如何将聚类成员组合为更加优越的结果。现有的聚类集成技术尚不能同时满足速度快、效果好的要求。本课题重点研究文本聚类集成中的共识函数设计问题,取得的创新性研究成果包括(1)首先将聚类集成问题归结为直观的最佳子空间的求解问题;随后根据线性代数理论将该问题描述为带约束条件的优化问题,通过放松离散约束条件进一步约简为矩阵低秩近似问题;最后通过求解超图的加权邻接矩阵的奇异值分解问题获得最佳子空间的一组标准正交基。据此,设计了一个基于矩阵低秩近似的算法,该算法根据每个对象在低维空间下的坐标使用K均值算法进行聚类,从而得到最终的结果。(2)设计了基于谱聚类的聚类集成算法。该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员,然后采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息,最后对相似度矩阵使用谱聚类算法得到最终的集成结果。为使算法能扩展到大规模应用,利用Nystr?m采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度。该算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题。(3)设计了一种聚类集成算法,它结合了K均值算法与基于拉普拉斯矩阵的谱聚类算法,充分利用了聚类成员提供的属性信息与关系信息。为了有效降低该算法的计算复杂度,通过代数变换方法有效避免了大规模矩阵的特征值分解问题。在多组基准数据集上的实验结果表明较之于传统的聚类集成算法,本项目设计的算法获得了更好的聚类结果,且效率较高。本项目研究成果包括发表及录用期刊论文18篇、会议论文4篇,其中SCI收录4篇、EI收录15篇;申请国家发明专利5项;获批国家软件著作权5项。