面向海量、高维、多专题空间数据的探测性数据分析是空间信息技术发展及其应用拓展的迫切需求,也是空间数据挖掘的难点和重要方向。双重空间聚类面向带有多类型非空间属性的高维专题空间数据,要求聚类结果在空间域上连续、属性域上内聚。本项目将首次系统地研究"双重空间聚类"的内涵、形式化定义、聚类统计量、聚类准则及其判定方法等基本理论问题。研究双重空间聚类的求解策略并提出"空间解构-簇合并"的求解框架。建立自组织遗传优化的双重空间聚类算法,包括自组织空间解构(SSD)和遗传优化簇合并(GM)两个子过程。本项目也将探讨双重空间聚类中多类型属性距离计算、空间例外检测等问题以弥补现有相关研究的疏漏。本项目还将开发一个算法实验平台,并基于实际的大型专题空间数据库、结合领域应用任务来进行实证研究。本项目的研究将基本建立双重空间聚类的理论、方法和算法基础,有助于促进高维空间数据探测性数据挖掘技术的发展及其智能化。
Dual spatial clustering;Spatial clustering;Self-organizing nerual network;Genetic algorithm;Data mining
高维空间数据聚类旨在发现高维空间数据的聚集特征或属性的空间分布规律,是探测性数据分析的重要任务和难点。本项目研究了顾及空间和属性的双重聚类问题,系统地研究了“双重空间聚类”的内涵、形式化定义、聚类统计量、聚类准则及其判定方法等基本理论问题。双重空间聚类要求聚类结果空间域上连续、属性域上内聚,能够表现属性或属性组的复杂空间分布形态。研究了高维空间数据的预处理,提出了基于神经网络空间趋势分析的异常点检测方法。研究了复合距离聚类统计量,提出了聚类图谱和复合距离中属性权重确定的定量分析方法。提出了“空间解构-簇合并”的两步法求解策略,首先将空间对象分割为属性内聚的均质簇,然后再按照空间连续属性内聚的准则进行簇合并,构建了基本的顾及空间和属性的自组织空间聚类算法。建立了自组织遗传优化的双重空间聚类算法,包括自组织空间解构(SSD)和遗传优化簇合并(GM)两个子过程。项目基于实际的专题空间数据库、结合领域应用任务进行了算法实证研究。本项目的研究基本建立了双重空间聚类的理论、方法和算法基础,有助于促进高维空间数据探测性数据挖掘技术的发展。项目组成员按申请书和计划任务书要求完成了项目研究任务,并取得了相关研究成果,实现了项目预期研究目标。在本项目资助下,发表论文10篇,其中SCI论文6篇,EI论文2篇,核心期刊论文2篇。参加国际学术会议并发表会议论文报告2次,赴美参与国际合作交流一次。参与本项目的四位博士研究生,完成博士学位论文,顺利毕业。