从入门开始的数据分析学习笔记

最新推荐文章于 2022-10-13 17:36:28 发布

gdutzzY

最新推荐文章于 2022-10-13 17:36:28 发布

阅读量304

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_47425428/article/details/118553764

版权

本文是作者的数据分析学习笔记，重点介绍了使用sklearn进行数据切分、交叉验证、混淆矩阵和ROC曲线的分析。通过实例讲解train_test_split参数，探讨交叉验证在sklearn中的应用，讲解了ROC曲线及其在评估模型性能中的作用，并提到了numpy.argmin()和sklearn的predict方法。

摘要由CSDN通过智能技术生成

泰坦尼克号生存预测的建模与评估

学习笔记

1、sklearn-learn学习路径

#sklearn模型算法选择路径图
Image('sklearn.png')

在这里插入图片描述

2、train_test_split

在sklearn_learn中切割数据集的方法是train_test_split，它可以将数组或矩阵拆分为随机训练和测试子集。
其中的参数train_test_split(array, test_size, train_size, random_state, shuffle, stratify)
arrays : 具有相同长度/形状的可索引序列[0]
允许的输入是列表、numpy 数组、scipy-sparse
矩阵或熊猫数据框。

test_size : 浮点数或整数，默认值=无
如果是float，应该在0.0到1.0之间，代表比例
要包含在测试拆分中的数据集。如果是 int，则代表
测试样本的绝对数量。如果没有，则该值设置为
火车大小的补充。如果 train_size 也是 None，它会
设置为 0.25。

train_size : 浮点数或整数，默认值=无
如果是浮点数，则应介于 0.0 和 1.0 之间并表示
包含在训练分割中的数据集的比例。如果
int，表示训练样本的绝对数量。如果没有，
该值自动设置为测试大小的补码。

random_state : int 或 RandomState 实例，默认值=无
在应用拆分之前控制应用于数据的改组。
为跨多个函数调用的可重现输出传递一个 int。
见:term:词汇表<random_state>。

shuffle: 布尔，默认=真
拆分前是否对数据进行混洗。如果shuffle=False
那么分层必须是None。

stratify: 类似数组，默认=None
如果不是 None，则以分层方式拆分数据，将其用作
类标签。

3、交叉验证

交叉验证在sklearn中的模块为sklearn.model_selection

Image('Snipaste_2020-01-05_16-37-56.png')

在这里插入图片描述

示例：

from sklearn.model_selection import cross_val_score
lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)#lr为之前已经训练好的模型&#x