附录C
物种分布数据库与物种分布模型
C.1 物种分布数据库
物种分布数据库是以物种名、经纬度和调查时间为核心信息的数据库。物种名分为中文名和拉丁名两个字段。经纬度字段以度为单位,保留小数点后5位数字。野外调查中通过GPS记录的数据,其精度一般在十几米。根据文献中的地名信息(县名、乡镇名、河流、山脉等)匹配的经纬度,其精度一般在几公里至几十公里。对数据精确度的估计在精度字段中记录。时间字段为年(如1998,2005等),另外一个时间字段为文本字段,记录日期与时间、调查的时间阶段等信息。另外,数据来源(调查人、文献等)应记录在数据库中。最后应该建立一个备注字段(memo),记录任何相关信息(该字段是不限长度的)。MS Access是比较好的数据库软件,应该避免使用MS Excel。
C.2 利用物种分布模型预测物种的分布
建立物种分布的数据库后,配合环境变量,就可以应用物种分布模型预测物种的分布。
(1)环境变量
每个环境变量以GIS图层的形式储存和管理,范围覆盖整个中国。对于空间范围超过1000万平方公里的分析,精度为1平方公里
— 43 —
的栅格数据是最常用的。
常用的环境变量有:
地形地貌变量:海拔、坡度、坡向、破碎度;
地表类型变量:土地利用类型、植被、生态区、地质类型、土壤类型、湿地类型;
气候变量:年均温、年总降水、温度的季节变异、降水的季节变异、最低温、最高温、1月的最低温、1月的均温、1月的总降水、7月的最高温、7月的均温、7月的总降水、年温度变化范围、干燥度、辐射强度;
人文、生态等指标:初级生产力(NDVI)、生物量、GDP、人口密度、人类足迹指数、道路密度、乡镇密度、河流密度、土壤厚度、土壤N含量、土壤C含量,等等。
(2)物种分布模型
常用的物种分布模型有十几种,包括回归模型、分类树和混合大量简单模型的神经网络、随机森林等。其中逻辑斯蒂回归是最为简单、应用最广的模型。机器学习类复杂模型(如随机森林、神经网络、Maxent等)的预测精度较高,在近年来应用得越来越多。下面简单介绍逻辑斯蒂回归和随机森林模型。
逻辑斯蒂回归是广义线性模型(Generalized Linear Models,简称GLM)的一种形式。广义线性模型是一般线性模型的扩展,允许因变量为二项分布、泊松分布等离散型的分布;而一般线性模型要求因变量为连续变量,而且其残差为正态分布。因此广义线性模型
— 44 —
比一般线性模型有更广泛的应用(McCullagh & Nelder 1989)。大多数统计软件在运行广义线性模型时,都可以应用逐步回归,依据模型拟合优度的统计量Akaike Information Criterioin (AIC)或Bayesian Information Criteria (BIC)去除冗余变量,减少共线性(Thuiller et al. 2009)。
随机森林(Random Forest, 简称RF)应用Breiman的随机森林算法,通过对大量的分类树的计算来进行分类和回归(Breiman 2001)。随机森林把一组解释变量的值(一个向量)输入森林中的每棵分类树中,每棵树都给出这个向量的分类结果(例如物种存在还是不存在)。随机森林对所有的树的分类结果进行打分,并选择得分最高的分类树。整个算法包括树的生长阶段和投票选择阶段。随机森林在树的构建过程中,随机地从源数据集获取训练集,随机地选择训练集的变量,因此和其它树分类器的工作原理完全不同。随机森林构建的组合树的误差率更加小且稳定(Breiman 2001)。
(3)预测分布范围
物种的每个分布点都对应着环境变量的信息,如海拔1500米,植被类型为灌丛,人口密度为5人/平方公里,等等。根据物种分布点的环境信息和背景信息(整个区域),物种分布模型可以量化物种对环境的依赖关系,从而预测任何一点(该点必须有环境变量的信息)物种分布的概率。
一般而言,可以随机选择地点预测物种分布的概率,也可以系统地按照0.2度的间隔在全国选择预测点(如动物红线划分中选择
— 45 —
23953个),预测物种在这些预测点的分布概率。有两种物种分布模型(即Maxent和GARP)直接调用环境变量的GIS图层,并生成预测图层,所以不需要选择预测点。在生成23953点表示物种分布的概率后,可以通过几个途径划出等值线。例如,GIS的空间插值法可以生成等值线图,等值线取值范围在0-1之间,代表了物种分布的概率,或者生境适宜度。
抄 送:南京环境科学研究所,中国环境科学研究院,环境规划院。 环境保护部办公厅 2014年1月17日印发
— 46 —