sklearn学习笔记
0、简介
注:本篇博文是博主学习过程中保存的个人笔记,并非完善系统地教学内容,仅供参考。
Scikit-learn是Python中机器学习的库,依赖于scipy,对常用的方法进行了封装。
基本功能分为6大类:分类、回归、聚类、降维、模型选择、数据预处理。
sklearn本身并不支持深度学习,不支持GPU加速,不适合处理大规模问题。
sklearn官方有个算法选择路径,蓝色圈代表判断条件,绿色框代表具体算法
1、主要方法——sklearn.datasets
sklearn自带了许多公开的数据集,可以直接调用。也可以生成随机数据(噪声)作为数据集。
例如:波士顿房价数据集、鸢尾花数据集等等。
使用案例
from sklearn import datasets
loaded_data = datasets.load_boston()
data_x = loaded_data.data
data_y = loaded_data.target
2、数据预处理方法——sklearn.preprocessing
将原始数据转化为更适合计算和学习的分布,不改变原始数据间的特征关系。加速模型收敛。</