聚类分析是模式识别的重要组成部分。基于划分的聚类算法是模式识别中最常用的聚类分析手段(如C均值,模糊C均值,等)。直到今日,这种类型的聚类算法还在文献中不断被提出。因此,研究基于划分的一般聚类模型,将现有文献中的基于划分的聚类算法尽可能统一起来,在理论上和实际上具有重要的意义。注意到基于划分的聚类算法大都是与统计学上的均值概念有关,因此本项目将着重研究最一般意义下的均值定义,指出聚类算法应该满足的基本要求,即聚类算法保持有效的必要条件,并从此出发,将现在文献中的基于划分的聚类算法统一到一个一般的聚类模型。然后在此模型下,研究包括聚类算法的收敛性,聚类算法的收敛速度,聚类算法解的稳定性判据,聚类算法中参数的理论选择,不同聚类算法的聚类有效性评估以及适用的范围,等等问题。预期得到的研究结果对于聚类算法的合理使用具有重要的价值。
聚类分析是模式识别的重要组成部分。基于划分的聚类算法是模式识别中最常用的聚类分析手段。因此,研究基于划分的一般聚类模型,将现有文献中的相关聚类算法尽可能统一起来,具有重要的意义。我们根据广义均值概念,得到了一个基于划分的一般聚类算法模型GCM,并证明文献中各种基于划分的聚类算法是GCM这个模型的各种特例。 研究了聚类模型GCM的各种性质,包括算法的解集的精确描述,解的各种特性的判据,如解的稳定性,算法的收敛性等等。我们根据聚类算法的一般原理,研究了聚类算法的非理想解,证明了基于划分的一般聚类模型GCM存在非理想解。由此得到了划分的一般聚类模型GCM非理想解不稳定的条件。研究了聚类算法GCM的不同参数变化对聚类算法解的影响,根据非理想解的稳定性理论上给出具体聚类算法的参数选择规则,部分解决了依赖人的经验选择聚类算法参数的问题。考虑到GCM模型没有考虑到只有隶属度出现和类原型约束的目标函数,我们提出了GFCM,GFCR模型,进行了同样的研究。并首次依据机器学习的奥卡姆剃刀原则,将文献中基于划分的聚类算法进行了科学分类。同时对于现今国际文献中在聚类研究中出现的一些错误结果进行了校正。