聚类分析可以发现无结构文本集中的潜在概念,并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性,很多聚类算法并不适用于文本聚类,另外,由于文本数据的海量性,对算法的计算复杂度也有很高要求。 聚类集成技术可以有效克服高效的超球K均值算法的缺点,提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点,本课题将其引入到文本聚类集成问题中,采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点,涉及高速、高质量文本聚类集成模型,为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。
clustering analysis;document cluster ensemble;algebraic transformation;low dimensional embedding;non-negative matrix factorizat
本项目以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括(1)鉴于谱聚类方法的诸多优点,本项目将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本项目基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。(2)本项目研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本项目进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。(3)本项目将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本项目使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本项目使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。(4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本项目在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本项目设计的聚类集成算法进行集成。 实验结果表明,这些方法可以有效解决文本聚类集成问题。