数据分析task05

最新推荐文章于 2022-10-24 17:10:49 发布

yabastone

最新推荐文章于 2022-10-24 17:10:49 发布

阅读量176

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yabastone/article/details/118794005

版权

模型搭建

import seaborn as sns # seaborn是在Matplotlib基础上的更高级的图形可视化库
from IPython.display import Image

载入清洗的数据集和原始的数据集，用shape()和head()查看两者不同，清洗后的数据集没有Survived,Name（与存活率没啥关系），而且为了方便机器识别，文字都转成了数字，可以提高处理速度。

模型搭建的步骤

1，得到建模数据后，选择合适模型

2，选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习，此处clear_csv数据没有标记Survived这列就不适合监督学习。

3，模型的选择一方面是通过我们的任务来决定，还可以根据数据样本量以及特征的稀疏性来决定，开始总是先尝试使用一个基本的模型，然后用其他模型做对比，最终选择泛化能力较好的模型，sklearn库就是机器学习最常用的一个库，用来完成模型的搭建。

plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6) # 设置输出图片大小

数据集哪些差异会导致模型在拟合数据时发生变化？

数据拟合，是一种把现有数据透过数学方法来代入一条数式的表示方法，科学和工程问题我们希望可以通过一些离散的数据（采样、试验等获得），得到一个连续的函数（曲线）或者更密集的离散方程与已知数据相吻合，这过程就叫做拟合(fitting)。

评估模型的时候需要验证，所以就需要

任务一：切割训练集和测试集

切割数据集有三种方法：留出法，交叉验证法，自助法

测试集是用来评估训练出来的模型好不好

1，讲数据集分我自变量x和因变量y，这里自变量就是影响泰坦尼克号乘客幸存的年龄，性别，仓位等，因变量就是结果Survived。

2，按比例切割训练集，测试集，一般有30%，25%，20%，15%，10%，如果数据是百万级那就更小。

fr

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析task05

模型搭建和建模import seaborn as sns #在Matplotlib基础上的图形可视化库from IPython.display import Image载入清洗的数据集和原始的数据集，用shape()和head()查看不同,清洗后的数据集没有Survived,Nameplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # ..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。