模型搭建
import seaborn as sns # seaborn是在Matplotlib基础上的更高级的图形可视化库
from IPython.display import Image
载入清洗的数据集和原始的数据集,用shape()和head()查看两者不同,清洗后的数据集没有Survived,Name(与存活率没啥关系),而且为了方便机器识别,文字都转成了数字,可以提高处理速度。
模型搭建的步骤
1,得到建模数据后,选择合适模型
2,选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习 ,此处clear_csv数据没有标记Survived这列就不适合监督学习。
3,模型的选择一方面是通过我们的任务来决定,还可以根据数据样本量以及特征的稀疏性来决定,开始总是先尝试使用一个基本的模型,然后用其他模型做对比,最终选择泛化能力较好的模型,sklearn库就是机器学习最常用的一个库,用来完成模型的搭建。
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6) # 设置输出图片大小
数据集哪些差异会导致模型在拟合数据时发生变化?
数据拟合,是一种把现有数据透过数学方法来代入一条数式的表示方法,科学和工程问题我们希望可以通过一些离散的数据(采样、试验等获得),得到一个连续的函数(曲线)或者更密集的离散方程与已知数据相吻合,这过程就叫做拟合(fitting)。
评估模型的时候需要验证,所以就需要
任务一:切割训练集和测试集
切割数据集有三种方法:留出法,交叉验证法,自助法
测试集是用来评估训练出来的模型好不好
1,讲数据集分我自变量x和因变量y,这里自变量就是影响泰坦尼克号乘客幸存的年龄,性别,仓位等,因变量就是结果Survived。
2,按比例切割训练集,测试集,一般有30%,25%,20%,15%,10%,如果数据是百万级那就更小。
fr