Kaggle系列——Titanic 80%＋精确度纪录

煎饼果子来一套

于 2015-09-04 22:24:40 发布

阅读量1.7w

点赞数 5

分类专栏：机器学习项目实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yobobobo/article/details/48194021

版权

本文介绍了作者在 Kaggle Titanic 比赛中的经验，通过使用 GBDT 模型实现了超过 80% 的精度。文章讨论了数据解析、模型选择、特征工程，特别是利用 Name 特征和处理缺失值的方法，以及如何通过增加数据量提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为最近模型上线收益没有符合预期，一直都没有时间搞，而且感觉Titanic的数据量太少了，做起来没意思，暂且优化到0.8的precision，排名700＋

背景描述
- 数据描述
- 评估方式
模型以及特征选择
模型调试
- age特征的调优
- 增加数据
结

背景描述

Kaggle上的一个入门题目，属于二分类问题。

泰坦尼克号中一个经典的场面就是豪华游艇倒了，大家都惊恐逃生，可是救生艇的数量有限，不可能让大家都同时获救，这时候副船长发话了：lady and kid first！这并不是一个随意安排的逃生顺序，而是某些人有优先逃生的特权，比如贵族，女人，小孩的。
那么现在问题来了：给出一些船员的个人信息以及存活状况，让参赛者根据这些信息训练出合适的模型并预测其他人的存活状况。

数据描述

数据是csv格式，提醒一下：之前一直是这样解析数据的:

tmp = line.rstrip('\n').split(',')

有些字段中包含”,”，上面这个解析就出问题了。
数据包含的字段如下：

PassengerID
Survived(存活与否)
Pclass（客舱等级）
Name（姓名）
Sex（性别）
Age（年龄）
SibSp（亲戚和配偶在船数量）
Parch（父母孩子的在船数量）
Ticket（票编号）
Fare（价格）
Cabin（客舱位置）
Embarked（上船的港口编号）

评估方式

比赛通过准确率指标评估模型优劣
precision=

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。