Sklearn 库是 Python 重要的机器学习库,库中包含了大量机器学习算法,为算法实现提供了大量的便捷。
Sklearn 库的算法主要有四类:分类、回归、聚类、降维。
回归问题:主要指用已知数据对某一值进行预测
分类问题:主要指利用已知数据特征判断其余数据属于哪一类
聚类问题:与分类问题类似,但区别在于分类问题属于有监督学习,聚类问题属于无监督学习。
下面依据流程使用 Sklearn 库:
一、对工具包进行导入:
下面展示一些 伪代码段
。
from sklearn import 包名称
from sklearn.库名称 import 包名称
from sklearn import datasets //导入数据集
在将工具包导入后,我们开始导入数据:
from sklearn.datasets import 数据名称
sklearn 模块内有许多内置数据集,如波士顿房屋价格,糖尿病,葡萄酒等数据集。
在使用这些数据集时我们可以直接导入。
同样我们也可以在网络上下载其他数据库进行导入。
二、数据预处理
主要有数据划分、数据变换操作,特征选择三个部分
1、数据划分
在机器学习中,我们一般把数据划分为训练集和测试集,数据比例一般为 7:3;
from sklearn.model_selection import train_test_split
x_train,X_test,y_train,y _test = train_test _split(X, y, random _state=12, stratify = y, test _size =0.3)
2、数据变换操作
Sklearn.preprocessing 模块包含了数据变换的一些操作。
3、特征选择
主要包含过滤式,封装式,嵌入式三种方式。
本节主要偏理论内容,但也是运用 sklearn 的重要基础。
若有不正之处,欢迎大家批评指正,与大家共同学习!