25 | Titanic 乘客生存决策树预测

本文详细介绍了使用决策树预测 Titanic 乘客生存情况的全流程,包括数据探索、清洗、特征选择、模型训练、预测评估及模型可视化。在特征选择中,舍弃了无关特征,将分类特征转换为数值类型。模型训练采用了 ID3 算法,通过 K 折交叉验证评估准确率,最后探讨了决策树模型的优化和可视化技巧。
摘要由CSDN通过智能技术生成

Titanic 乘客生存预测流程

数据获取 --> 数据探索 --> 数据清理 --> 特征选择 --> 决策树模型 --> 模型预测和评估 --> 决策树可视化

模块 1:数据探索:

一、使用 info() 了解数据表的基本情况:行数、列数、每列的数据类型、数据完整度;
       
二、使用 describe() 了解数据表的统计情况:总数、平均值、标准差、最小值、最大值等;
           
三、使用 describe(include=[‘O’]) 查看字符串类型(非数字)的整体情况;
        
四、使用 head 查看前几行数据(默认是前 5 行);
        
五、使用 tail 查看后几行数据(默认是最后 5 行)。

模块 2:数据清洗

通过数据探索,我们发现 Age和 Cabin 这三个字段的数据有所缺失。其中 Age 为年龄字段,是数值型,我们可以通过平均值进行补齐&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘要努力。

顺便点一个赞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值