数据分析-sklearn包

本文介绍了如何使用sklearn进行数据预处理、模型评估和特征提取。讲解了交叉验证,包括k-折交叉验证的原理和使用,以及如何计算交叉验证指标。接着讨论了数据预处理的重要性,如MinMaxScaler和RobustScaler的应用。此外,还提到了模型评估的均方误差计算方法,并介绍了验证曲线在评估模型中的作用。最后,简述了DictVectorizer在特征提取中的角色,用于将字典对象转换为适合机器学习的表示形式。
摘要由CSDN通过智能技术生成

1、交叉验证:评估估算器的表现
from sklearn.model_selection import train_test_split
可以很快地将实验数据集划分为任何训练集(training sets)和测试集(test sets)

X_train,X_test,y_train,y_test = train_test_split(data,target,test_size=0.4, random_state=0)

函数在进行训练的时候,由于在原数据集上使得训练器达到最好的状态,但在训练集上有可能出现过拟合状态,所以需要准备 “validation set(验证集)” ,使用训练器在验证集上对模型进行评估,当评估结果比较成功的时候,就在测试集上进行最后的评估。

通过交叉验证(cv)做模型的评估,不需要验证集。

实现方法:k-折交叉验证
k-折交叉验证将训练集划分为 k 个较小的集合,并且每一个 k 折都会遵循下面的过程:

  • 将 k-1 份训练集子集作为 training data (训练集)训练模型,
  • 将剩余的 1 份训练集子集作为验证集用于模型验证(也就是利用该数据集计算模型的性能指标,例如准确率)。
    在这里插入图片描述

1.1. 计算交叉验证的指标
交叉验证函数:cross_val_score

>>> from sklearn.model_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值