机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
建立物种的地理分布模型,是保护生物学的一个重要问题。在这个例子里,我们将根据已有的历史观测和14个环境变量,建立两个南美洲哺乳动物类的地理分布模型。这两个物种分别是:
- 褐喉树懒(
Bradypus variegatus
)
- 森林小稻鼠(
Microryzomys minutus
)
数据集介绍
本例使用的物种分布数据集由datasets库函数fetch_species_distributions
加载。它有两个参数,其中,data_home
指定数据集下载后的存储文件夹,该参数的默认值为None
, 表示存储在当前工作目录的scikit_learn_data
子目录下。download_if_missing
表示如果本地没有可利用的数据,是否从原始网站下载数据。该参数是逻辑型,默认值为True
,如果取False
, 则在没有找到数据时给出一个错误提示。
函数fetch_species_distributions
返回一个Bunch
数据对象,它有属性:
- coverages: 数组型,形状[14, 1592, 1212]
它表示在地图网格测量的14个特征的值,其中的缺失值用-9999表示。
- train: 记录数组,形状 (1624,)
它表示数据集的训练点,每个点有三个域:
- train[‘species’]是物种名字
- train[‘dd long’]是经度
- train[‘dd lat’]是纬度
- test: 记录数组,形状 (620,)
它表示数据的检验点,与训练数据格式相同。
- Nx, Ny: 整型
它们分别表示格点的经度(x), 纬度(y)值。
- x_left_lower_corner, y_left_lower_corner: 浮点型
左下角的坐标位置(x, y)
- grid_size: 浮点型
网格上点与点之间的间隔。
实例详解
首先,加载必需的函数模块和库。
# Authors: Peter Prettenhofer <peter.prettenhofer@gmail.com>
# Jake Vanderplas <vanderplas@astro.washington.edu>
#
# License: BSD 3 clause
from __future__ import print_function
from time import ti