从入门开始的数据分析学习笔记

本文是作者的数据分析学习笔记,重点介绍了使用sklearn进行数据切分、交叉验证、混淆矩阵和ROC曲线的分析。通过实例讲解train_test_split参数,探讨交叉验证在sklearn中的应用,讲解了ROC曲线及其在评估模型性能中的作用,并提到了numpy.argmin()和sklearn的predict方法。
摘要由CSDN通过智能技术生成

泰坦尼克号生存预测的建模与评估

1、sklearn-learn学习路径

#sklearn模型算法选择路径图
Image('sklearn.png')

在这里插入图片描述

2、train_test_split

在sklearn_learn中切割数据集的方法是train_test_split,它可以将数组或矩阵拆分为随机训练和测试子集。
其中的参数train_test_split(array, test_size, train_size, random_state, shuffle, stratify)
arrays : 具有相同长度/形状的可索引序列[0]
允许的输入是列表、numpy 数组、scipy-sparse
矩阵或熊猫数据框。

test_size : 浮点数或整数,默认值=无
如果是float,应该在0.0到1.0之间,代表比例
要包含在测试拆分中的数据集。如果是 int,则代表
测试样本的绝对数量。如果没有,则该值设置为
火车大小的补充。如果 train_size 也是 None,它会
设置为 0.25。

train_size : 浮点数或整数,默认值=无
如果是浮点数,则应介于 0.0 和 1.0 之间并表示
包含在训练分割中的数据集的比例。如果
int,表示训练样本的绝对数量。如果没有,
该值自动设置为测试大小的补码。

random_state : int 或 RandomState 实例,默认值=无
在应用拆分之前控制应用于数据的改组。
为跨多个函数调用的可重现输出传递一个 int。
见:term:词汇表<random_state>

shuffle: 布尔,默认=真
拆分前是否对数据进行混洗。如果shuffle=False
那么分层必须是None。

stratify: 类似数组,默认=None
如果不是 None,则以分层方式拆分数据,将其用作
类标签。

3、交叉验证

交叉验证在sklearn中的模块为sklearn.model_selection

Image('Snipaste_2020-01-05_16-37-56.png')

在这里插入图片描述

示例:

from sklearn.model_selection import cross_val_score
lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)#lr为之前已经训练好的模型&#x
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值