数据分析task05(2021-06-24)

最新推荐文章于 2023-03-14 13:54:24 发布

来碗孟婆汤，三分糖去冰多放香菜

最新推荐文章于 2023-03-14 13:54:24 发布

阅读量128

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_44402490/article/details/118165805

版权

数据建模及模型评估
任务一：切割训练集和测试集
这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现
【思考】

划分数据集的方法有哪些？
为什么使用分层抽样，这样的好处有什么？
任务提示1
切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 查看数据形状
X_train.shape, X_test.shape

在这里插入图片描述
什么情况下切割数据集的时候不用进行随机选取:
在数据集本身已经是随机处理之后的，或者说数据集非常大，内部已经足够随机了

任务二：模型创建
创建基于线性模型的分类模型（逻辑回归）
创建基于树的分类模型（决策树、随机森林）
分别使用这些模型进行训练，分别的到训练集和测试集的得分
查看模型的参数，并更改参数值，观察模型变化
提示2
逻辑回归不是回归模型而是分类模型，不要与LinearRegression混淆
随机森林其实是决策树集成为了降低决策树过拟合的情况
线性模型所在的模块为sklearn.linear_model
树模型所在的模块为sklearn.ensemble

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# 默认参数逻辑回归模型
lr = LogisticRegression()
lr.fit(X_train, y_train)

最低0.47元/天解锁文章

来碗孟婆汤，三分糖去冰多放香菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据分析task05(2021-06-24)

数据建模及模型评估任务一：切割训练集和测试集这里使用留出法划分数据集将数据集分为自变量和因变量按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)使用分层抽样设置随机种子以便结果能复现【思考】划分数据集的方法有哪些？为什么使用分层抽样，这样的好处有什么？任务提示1切割数据集是为了后续能评估模型泛化能力sklearn中切割数据集的方法为train_test_split查看函数文档可以在jupyter noteboo里面使用train_test_spli
复制链接

扫一扫