不确定数据遍及我们生活的各个领域,例如GPS或移动电话的定位、植物生长位置或区域的定位和传感器数据管理等。这些应用中,空间并置(co-located)模式的挖掘是非常重要的。本项目研究不确定数据的空间co-location模式挖掘的理论、算法和应用。包括不确定概率co-location模式挖掘研究、不确定近似co-location模式挖掘研究、不确定模糊co-location模式挖掘研究、不确定加权co-location模式挖掘研究。分析不确定性挖掘在"三江并流"植物空间数据这一实际应用项目中的意义和作用,建立"三江并流"区域植物物种分布格局和挖掘共生植物物种的决策支持系统。在国内外重要学术期刊和会议上发表高水平学术论文8-10篇,其中SCI和EI收录论文5-6篇,培养青年教师3名,硕士研究生至少15名。
Spatial data mining;spatial co-location patterns;uncertain data;algorithm;three parallel rivers of Yunan
不确定数据遍及生活的各个领域,如GPS或移动电话的定位、植被疾病诊断、环境监测等。这些应用中,空间并置(co-located)模式的挖掘是非常重要的。本项目系统全面地研究了不确定数据的空间co-location模式挖掘理论、算法和应用,研究成果丰富和发展了空间数据挖掘的理论与技术。取得的主要成果包括(1)给出不确定性空间数据的表示和建模方法,定义不确定空间数据的语义距离、空间邻近关系,提出不确定空间对象间的距离计算的有效方法;(2)定义不确定数据的期望频繁co-location模式、概率频繁co-location模式,比较期望频繁与概率频繁,设计有效的精确挖掘算法和可伸缩的近似挖掘算法,找到了样本数目与近似误差的关系;(3)基于模糊等价划分,定义区间数表示的不确定数据的语义贴近邻居概念,设计高效的不确定区间数据的co-location挖掘算法;(4)定义模糊空间数据上空间co-location模式挖掘的相关概念,包括模糊参与率、模糊参与度等。提出模糊特征的co-location模式及其挖掘算法、模糊度阈值范围内模糊特征的co-location模式及其挖掘算法、模糊实例的co-location模式及其挖掘算法、带模糊属性的co-location模式及其挖掘算法;(5)定义加权co-location模式概念,证明加权参与率与加权参与度的部分向下闭合性质,设计有效的挖掘算法,以解决带稀有特征的或带时间约束的空间数据集的co-location模式的挖掘问题;(6)获得“三江并流”区域植被分布的不确定数据,研究不确定co-location挖掘方法、模糊co-location挖掘方法及加权co-location挖掘方法在“三江并流”植被分布数据分析中的应用,进行不确定co-location挖掘与传统co-location挖掘的比较。在包括《IEEE Transaction on Knowledge and Data Engrineering》(TKDE)、《Expert Systems》、《计算机学报》等国内外重要期刊和包括ADMA、WAIM、BNCOD、NDBC等重要学术会议上发表学术论文27篇,其中SCI 收录3篇,EI收录 11篇次。完成一部专著《空间模式挖掘理论与方法》的撰写工作。培养中青年教师4名,博士研究生2名,硕士研究生26 名。