xgboost中文叫做极致梯度提升模型,官方文档链接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html
2018年9月6日笔记
IDE(Intergrated development Environment),集成开发环境为jupyter notebook
操作系统:Win10
语言及其版本:python3.6
此项目的难点在于pandas的熟练使用、机器学习模型快速开发和部署。
0.打开jupyter notebook
在桌面新建文件夹风力发电机叶片结冰分类预测,按钮如下图所示:

在文件夹 风力发电机叶片结冰分类预测中打开 PoweShell。
在文件夹中 按住Shift键的情况下,点击鼠标右键,出现如下图所示:

点击上图中的 在此处打开PowerShell窗口,在其中输入命令并运行: jupyter notebook

运行命令后会自动打开浏览器窗口,新建代码文件,如下图所示:

aerogenerator中文叫做 风力发电机;
vane中文叫做 叶片。
代码文件重命名为 aerogeneratorVane,重命名文件 按钮位置如下图所示:

1.加载数据
数据集下载链接: https://pan.baidu.com/s/15NsGA1fvDlmQdxww_xBXZg 密码: 8sn8
下载文件为zip压缩文件,里面含有3个csv文件:data.csv、failure.csv、normal.csv
data.csv文件是带有所有特征字段的数据集;
failure.csv文件是风力发电机叶片故障时间段,时间段包括2个字段:开始时间startTime、结束时间endTime;
normal.csv文件是风力发电机叶片正常时间段,时间段包括2个字段:开始时间startTime、结束时间endTime。
3个文件要放到代码文件同级目录下。
1.1 pd.read_csv方法加载数据
载入data.csv文件并观察数据代码如下:
import pandas as pd
data_df = pd.read_csv('data.csv', parse_dates=['time'])
print(data_df.shape)
data_df.head()

1.2 利用pickle保存数据集
安装pickle库命令:pip install pic