候鸟迁徙行为过程主要中涉及到栖息地发现、迁徙路线追踪以及栖息地之间的活动关系等。为此如何寻找候鸟迁徙过程的栖息地、追踪候鸟的迁徙路线、挖掘栖息地之间的关系对候鸟和生态环境的保护、禽流感等疾病传播和防治的研究具有重要的意义。针对目前对于候鸟迁徙的卫星跟踪数据处于人工处理的现状,本项目拟研究相关数据挖掘算法并应用这些算法对高达百万级数据量的候鸟迁徙的卫星跟踪数据进行数据分析。研究基于密度的层次聚类算法发现栖息地、基于聚类的多时间序列关联性分析算法追踪候鸟迁徙的路线、以带权重的连通图挖掘的算法寻找栖息地之间的关系,最后将这些算法应用到实际的青海湖区域候鸟迁徙卫星跟踪数据当中,并以WebGIS平台可视化展现算法挖掘的结果,为动物学家和生态学家进一步的研究提供坚实的基础。
Bird migration;Satellite tracking data;Clustering algorithm;Sequential pattern;Graph Mining
候鸟迁徙行为过程主要中涉及到栖息地发现、迁徙路线追踪以及栖息地之间的活动关系等。如何寻找候鸟迁徙过程的栖息地、追踪候鸟的迁徙路线、挖掘栖息地之间的强关联关系对候鸟和生态环境的保护、禽流感等疾病传播和防治的研究具有重要的意义。首先,传统的聚类算法无法进行层次性地聚类,发现不同密度的鸟类栖息地。为此,提出了基于密度的可交互层次聚类算法HDBSCAN (Hierarchical DBSCAN),该算法采用了Breadth First Search 并结合DBSCAN的方式进行聚类,在聚类过程中建立了鸟类迁徙的空间聚类树(Spatial-Tree),此聚类树以哈弗曼编码的格式对每一个聚类簇编号。而针对层次聚类算法计算效率不高的缺点,提出了一种新的层次聚类算法HCKG,使用核密度估计(kernel density estimation)来建模GPS数据之间的影响,通过调整核密度函数中平滑参数来适应鸟类移动的模式,以获得鸟类栖息地聚类的层次。其次,候鸟在不同的栖息地之间的迁徙过程,可以将其看作是序列和关联规则挖掘过程中的一个事物;每个候鸟迁徙的路径就是一段时间系列,候鸟在不同的栖息地之间的飞行路线,构成了自身的序列数据;而各个候鸟之间的时间序列具有相关性,从而构成候鸟集体迁徙路线的规律;为此提出基于GSP算法去挖掘鸟类迁徙序列中高频繁的迁徙路线。第三,把候鸟迁徙路线看作鸟类遵守的周期模式,可通过寻找周期模式来发现候鸟的迁徙路线。本研究针对GPS数据通常是非均匀的、大量缺失值、有限长度的,且含有许多噪音等特点,提出了一种挖掘共同的时空周期模式算法来发现候鸟迁徙路线。同时,在时空周期模式算法的基础之上,提出了一种异常模式检测的框架,并用出租车的GPS数据进行了验证。最后,在对候鸟迁徙规律与禽流感传播的规律进行时空相关性分析的问题上,通过把候鸟迁徙路径描述labeled graph,从而把该生态学问题转化为机器学习问题。在此基础上提出HELEN (High-wEight cLosed cliquE miNing)算法来挖掘带权重全联通子图,同时提出HELEN-p算法基于挖掘的带权重全联通子图来预测H5N1的爆发。