机器学习 | 【01】sklearn初步使用及机器学习的流程

sklearn

scikit-learn数据集

sklearn.datasets:加载获取流行数据集

datasets.load_*():获取小规模数据集,数据包含在datasets里
datasets.fetch_*(data_home=None):获取大规模数据,参数表示从网上下载数据

sklearn大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None, subset='train')
参数: ~ subsettraintest , all 选择要加载的数据集

sklearn数据集返回值介绍

loadfetch 返回的数据类型 datasets.base.Bunch(字典格式)

  • data:特征数据数组,
  • target:标签数组, 一维
  • DESCR:数据描述
  • feature_names:特征名
  • target_names:标签名

查看数据分布

seaborn

seaborn.Implot():绘制二维散点图,自动完成回归拟合

  • sns,Implot():x、y分别代表横纵坐标的别名
  • data:关联到数据集
  • hue:代表按照species,类别的分类显示
  • fit_reg:是否进行线性拟合

数据集划分api

sklearn.model_selection.train_test_split(arrays, *opetions)

  • x:特征值
  • y:标签值
  • test_size:划分测试集的大小
  • random_state:随机种子,相同种子的采样结果一样
  • return:训练集特征值、测试集特征值、训练集标签值、测试集标签值

交叉验证

概念

训练集:训练集+验证集

在这里插入图片描述

目的

为了让评估模型更加准确可信, 不能提高准确率

api

sklearn.model_selection.GridSearchCV():对估计器的指定参数值进行详尽搜索

参数

  • estimator:估计器对象
  • param_grid:估计器参数 {'n_neighbors':[1,3,5...]}
  • cv:指定几折交叉验证

方法

  • fit:输入训练数据
  • score:准确率

结果分析

  • best_score_:交叉验证中的最好结果
  • best_estimator_:最好的参数模型
  • cvesults:每次交叉验证后的验证集准确率和训练集准确率结果

机器学习

基本流程

  • 获取数据集
  • 数据处理【数据切割】
  • 特征工程
  • 机器学习
  • 模型评估
特征预处理

定义:将原始数据变换映射在 (0, 1) 之间; 将数据转化成机器能学习的数据 标准化、归一化

归一化

为何标准归一化

特征的单位或大小相差较大,或某特征的方差比其他的特征大出几个数量级,易影响目标结果
eg:一列数据出现1和10000000

归一化
在这里插入图片描述
归一化api

sklearn.preprocession.MinMaxScaler(feature_range=(0,1)....)
MinMaxScaler.fit_transform(np.array):返回转型后的数据

标准化

在这里插入图片描述
api

sklearn.preprocessing.StandarScaler() 将数据转化在0-1之间
StandardScaler.fit_transform(X):X为 np.array 数据格式

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jxiepc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值