随着GML规范的不断完善及广泛应用,大量的不同时期的GML空间数据开始累积;另一方面,随着LBS市场的不断扩大,大量的有关移动对象的GML时空数据也开始涌现。如何从GML时空数据(库)中提取知识,已经成为当前空间数据挖掘亟待解决的热点问题。结合现有的时空数据模型及我们的研究基础,研究面向时空数据挖掘的GML数据模型及时空索引方法;针对时空数据挖掘中不同的时间、空间尺度可能获得不同的时空关系模式的特点,研究GML时空数据挖掘中的时空尺度自适应机制,并对不同的时空尺度下,时空序列数据的相似性度量进行研究;在此基础上,针对半结构化GML时空数据的特点,综合XML数据挖掘、时间序列数据挖掘、时空数据挖掘的理论与方法,研究基于多时空尺度的GML时空关联规则及序列模式挖掘的高效算法及频繁项集搜索计算的剪枝策略;最后,研究开发相应的原型系统。项目的研究将进一步完善空间数据挖掘的理论与应用体系。
Spatio-temporal Data Model;GML Spatial Association Rule;m-order Spatial Neighbors;Spatio-temporal Clustering;Similarity Query
在分析现有时空数据模型的基础上,结合云计算环境下非关系数据库(NoSQL)技术的发展,提出了适合于海量空间数据分析的基于HBase的GML时空数据模型,并对其逻辑模型和物理模型进行了设计。在分析现有时空关联规则挖掘研究的基础上,针对半结构化GML时空数据的特点,提出了GML频繁子树模式、频繁标签挖掘算法。采用增量式概念格的思想,对GML空间数据进行概化、剪枝及删除冗余等操作,利用Hasse图构建GML数据中各个概念节点之间所蕴含的相互关系,该方法只需要对GML文档扫描一次,同时绘出Hasse图,计算概念格中节点之间的关系,进而输出GML空间数据的关联规则。最后,开发了相应的原型系统,并进行了相关实验分析。在分析现有相似性度量及时空聚类挖掘研究的基础上,提出了基于空间m阶邻近关系的K-均值聚类算法,并将该算法应用于区域经济发展的空间聚类、时空聚类分析,通过空间自相关分析验证了区域经济发展的空间相关性。同时,对GML时空聚类的并行算法进行了研究,并通过实验验证了并行算法的有效性。在分析时间序列表达的基础上,提出了基于空间m阶邻近关系的GML时间序列相似性查询思想,并将该思想应用于区域经济发展时间序列相似性查询;通过时间序列相似性查询,能够发现区域经济发展模式的相似性。