【sklearn的一般流程】sklearn的一般流程,以鸢尾花分类为例
1. 数据的获取
sklearn是个非常强大的工具库,它自带了很多数据集,我们用iris(鸢尾花)作为本次的数据集。
sklearn自带的数据集
我们先把标准库导入,再调用sklearn的datasets函数导入iris数据集
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 1.get the dataset
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
iris:我们获取到的iris数据集是一个bunch格式(可以直接理解为字典)
X:特征值,共4种样例:sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)。其值均为数字。
y:标签,共有3种分类:setosa,versicolor,virginica。其值分别以0,1,2表示。
如图所示:
2. 数据预处理
特征缩放
我们可以观察到X的值之间相差比较大,为了能够得到更好的分类效果,我们采用特征缩放对数据进行处理。这里用到的是MinMaxScaler,特征缩放的其他方式。
from sklearn.p