机器学习 | 【01】sklearn初步使用及机器学习的流程

最新推荐文章于 2022-09-21 16:49:12 发布

Jxiepc

最新推荐文章于 2022-09-21 16:49:12 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_45926547/article/details/113758605

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

文章目录

sklearn
机器学习
- - 基本流程
  - - - 特征预处理
      - 归一化
        标准化

sklearn

scikit-learn数据集

`sklearn.datasets`：加载获取流行数据集

datasets.load_*()：获取小规模数据集，数据包含在datasets里
datasets.fetch_*(data_home=None)：获取大规模数据，参数表示从网上下载数据

`sklearn`大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None, subset='train')
参数： ~ subset：train 或 test , all 选择要加载的数据集

`sklearn`数据集返回值介绍

load 和 fetch 返回的数据类型 datasets.base.Bunch(字典格式)

data：特征数据数组，
target：标签数组，一维
DESCR：数据描述
feature_names：特征名
target_names：标签名

查看数据分布

seaborn

seaborn.Implot()：绘制二维散点图，自动完成回归拟合

sns,Implot()：x、y分别代表横纵坐标的别名
data：关联到数据集
hue：代表按照species,类别的分类显示
fit_reg：是否进行线性拟合

数据集划分api

sklearn.model_selection.train_test_split(arrays, *opetions)

x：特征值
y：标签值
test_size：划分测试集的大小
random_state：随机种子，相同种子的采样结果一样
return：训练集特征值、测试集特征值、训练集标签值、测试集标签值

交叉验证

概念

训练集：训练集+验证集

在这里插入图片描述

目的

为了让评估模型更加准确可信，不能提高准确率

api

sklearn.model_selection.GridSearchCV()：对估计器的指定参数值进行详尽搜索

参数

estimator：估计器对象
param_grid：估计器参数 {'n_neighbors':[1,3,5...]}
cv：指定几折交叉验证

方法

fit：输入训练数据
score：准确率

结果分析

best_score_：交叉验证中的最好结果
best_estimator_：最好的参数模型
cvesults：每次交叉验证后的验证集准确率和训练集准确率结果

机器学习

基本流程

获取数据集
数据处理【数据切割】
特征工程
机器学习
模型评估

特征预处理

定义：将原始数据变换映射在 (0, 1) 之间；将数据转化成机器能学习的数据 标准化、归一化

归一化

为何标准归一化

特征的单位或大小相差较大，或某特征的方差比其他的特征大出几个数量级，易影响目标结果
eg：一列数据出现1和10000000

归一化
在这里插入图片描述
归一化api

sklearn.preprocession.MinMaxScaler(feature_range=(0,1)....)
MinMaxScaler.fit_transform(np.array)：返回转型后的数据

标准化

在这里插入图片描述
api

sklearn.preprocessing.StandarScaler() 将数据转化在0-1之间
StandardScaler.fit_transform(X)：X为 np.array 数据格式

Jxiepc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
机器学习 | 【01】sklearn初步使用及机器学习的流程

文章目录sklearnscikit-learn数据集`sklearn.datasets`：加载获取流行数据集`sklearn`大数据集`sklearn`数据集返回值介绍查看数据分布seaborn数据集划分api交叉验证概念目的api机器学习基本流程特征预处理归一化标准化sklearnscikit-learn数据集sklearn.datasets：加载获取流行数据集datasets.load_*()：获取小规模数据集，数据包含在datasets里datasets.fetch_*(data_home
复制链接

扫一扫