因为最近模型上线收益没有符合预期,一直都没有时间搞,而且感觉Titanic的数据量太少了,做起来没意思,暂且优化到0.8的precision,排名700+
背景描述
Kaggle上的一个入门题目,属于二分类问题。
泰坦尼克号中一个经典的场面就是豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,不可能让大家都同时获救,这时候副船长发话了:lady and kid first!这并不是一个随意安排的逃生顺序,而是某些人有优先逃生的特权,比如贵族,女人,小孩的。
那么现在问题来了:给出一些船员的个人信息以及存活状况,让参赛者根据这些信息训练出合适的模型并预测其他人的存活状况。
数据描述
数据是csv格式,提醒一下:之前一直是这样解析数据的:
tmp = line.rstrip('\n').split(',')
有些字段中包含”,”,上面这个解析就出问题了。
数据包含的字段如下:
- PassengerID
- Survived(存活与否)
- Pclass(客舱等级)
- Name(姓名)
- Sex(性别)
- Age(年龄)
- SibSp(亲戚和配偶在船数量)
- Parch(父母孩子的在船数量)
- Ticket(票编号)
- Fare(价格)
- Cabin(客舱位置)
- Embarked(上船的港口编号)
评估方式
比赛通过准确率指标评估模型优劣
precision=