对物种潜在分布地预测的研究工作是个新兴的研究领域,特别是近十年中,产生很多优秀的算法和模型,被广泛应用在全球气候变化对物种分布影响,物种濒危机理与保护策略,外来入侵种扩散途径与防控机制等多个领域。但由于研究问题本身的复杂性,这些模型存在样本数据获取困难,数据关系复杂,模型结果受人为因素影响较大,软件使用门槛高等问题。本申请以统计分析中的聚类算法为基础,在前人工作的基础上,从问题出发,提出基于密度聚类的大理石算法,模拟物种在自然界中分布,尝试从中寻找分布规律,并将该规律应用于预测物种的潜在分布区间。在算法实现的过程中,充分考虑到物种分布数据的特点,提出有针对性的改进办法。还需要考虑到物种分布数据高维、小样本、缺少负样本数据的特性,寻找降维的办法;为提高算法的鲁棒性,充分考虑噪声数据对结果的影响,寻找到针对噪声数据的检验与排除方法。最后,将这些方法有机组合在一起,取得比常用模型更好的预测效果
Niche;Species Distribution Model;Machine Learning;Clustering Algorithm;Decision Tree Algorithm
本工作以统计分析中的聚类算法为基础,提出了基于密度聚类的大理石算法;以模式识别中机器学习相关理论为基础,提出了决策树及其增强算法。利用Java语言实现了上述两种算法。在算法实现的过程中,本研究充分考虑到了物种分布数据的特点,提出了有针对性的改进办法。考虑到物种分布数据的高维小样本的特性,提出了通过相关性分析和主成分分析降维的办法;为提高算法的鲁棒性,充分考虑噪声数据对结果的影响,提出了针对噪声数据的检验与排除方法;考虑到一些模型需要正负样本数据,提出了两种针对不同情况而使用的构造伪负样本的方法;考虑到有些物种在不同地区分布类型,限制因子不同提出了分组聚类的方法。这些方法有机的组合在一起,可以取得比原来的模型更好的预测效果。为了在统一的环境下检验上述两个模型之间,以及和其它常用物种分布预测模型的模拟效果,本研究实现了基于互联网技术的多模型物种潜在分布地预测平台——mMWeb平台。该平台除融合了上述两个算法外,还加入了9个国际上常用物种分布地预测模型,分别为BioClim模型、气候距离模型、生态位因子分析模型、气候包络模型、环境距离模型、基于规则集的遗传算法模型、人工神经网络模型、最大熵模型和支持向量机模型。