"数据挖掘和知识发现"是20世纪末形成的一个新兴边缘学科,也称数据挖掘,空间数据挖掘是其中的重要内容,空间聚类属于空间数据挖掘中的主流方法,使用频率很高。但其中仍然存在两个尚未彻底解决的难题其一,对一个给定的数据集(样本),如何确定最佳分类数或最佳分类数区间;其二,在基于空间对象非几何属性的相似性和差异性进行空间聚类的过程中,如何合理地反映空间对象之间在空间位置和拓扑关系方面的关联。本项目针对这两个尚未解决的难题,以几何概率和空间邻近性测度研究为基础,提出有效的解决方案,在强化空间聚类理论基础的同时也有利于提高相关空间数据挖掘算法的效率,研究意义重大而明确。
聚类是一类基本的数据分析方法,空间聚类是其中的一个重要分支,研究有关空间对象的聚类问题。尽管空间聚类已经被广泛地运用于空间数据分析所涉及的各个具体应用领域和专题,但其理论基础仍不完备,这种不完备性直接导致了已经实现的各种空间聚类算法的共同缺陷,表现在以下两个方面其一,聚类过程中需要预先指定聚类数,要求聚类前对样本数据有比较深刻的认识,而这正是需要通过应用聚类分析想要达到的目的;其二,空间对象的数据集中一般同时包含几何数据和属性数据,现有算法在聚类过程中一般是先考虑属性数据、再考虑几何数据,然后将两个阶段的结果集成,不能恰当地处理这两种不同类型数据之间的关系,容易顾此失彼。本项目针对以上两大问题分别提出基于几何概率和空间邻近约束的解决方案。其中基于几何概率确定最佳分类数以完全空间随机条件下空间对象在分析空间的分布函数为基础,基于空间邻近约束处理几何数据与属性数据的关系以空间邻近性测度为基础。