Kaggle系列——Titanic 80%+精确度纪录

本文介绍了作者在 Kaggle Titanic 比赛中的经验,通过使用 GBDT 模型实现了超过 80% 的精度。文章讨论了数据解析、模型选择、特征工程,特别是利用 Name 特征和处理缺失值的方法,以及如何通过增加数据量提升模型性能。
摘要由CSDN通过智能技术生成

因为最近模型上线收益没有符合预期,一直都没有时间搞,而且感觉Titanic的数据量太少了,做起来没意思,暂且优化到0.8的precision,排名700+
这里写图片描述

背景描述

Kaggle上的一个入门题目,属于二分类问题。

泰坦尼克号中一个经典的场面就是豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,不可能让大家都同时获救,这时候副船长发话了:lady and kid first!这并不是一个随意安排的逃生顺序,而是某些人有优先逃生的特权,比如贵族,女人,小孩的。
那么现在问题来了:给出一些船员的个人信息以及存活状况,让参赛者根据这些信息训练出合适的模型并预测其他人的存活状况。

数据描述

数据是csv格式,提醒一下:之前一直是这样解析数据的:

tmp = line.rstrip('\n').split(',')

有些字段中包含”,”,上面这个解析就出问题了。
数据包含的字段如下:

  • PassengerID
  • Survived(存活与否)
  • Pclass(客舱等级)
  • Name(姓名)
  • Sex(性别)
  • Age(年龄)
  • SibSp(亲戚和配偶在船数量)
  • Parch(父母孩子的在船数量)
  • Ticket(票编号)
  • Fare(价格)
  • Cabin(客舱位置)
  • Embarked(上船的港口编号)

评估方式

比赛通过准确率指标评估模型优劣
precision=

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值