文章目录
Titanic 乘客生存预测流程
数据获取 --> 数据探索 --> 数据清理 --> 特征选择 --> 决策树模型 --> 模型预测和评估 --> 决策树可视化
模块 1:数据探索:
一、使用 info() 了解数据表的基本情况:行数、列数、每列的数据类型、数据完整度;
二、使用 describe() 了解数据表的统计情况:总数、平均值、标准差、最小值、最大值等;
三、使用 describe(include=[‘O’]) 查看字符串类型(非数字)的整体情况;
四、使用 head 查看前几行数据(默认是前 5 行);
五、使用 tail 查看后几行数据(默认是最后 5 行)。
模块 2:数据清洗
通过数据探索,我们发现 Age和 Cabin 这三个字段的数据有所缺失。其中 Age 为年龄字段,是数值型,我们可以通过平均值进行补齐&