titanic预测

开始入手做titianic项目了。

首先明确,这肯定是一个分类问题,而且是二分类问题。

对数据进行观察

Survived–存活率,也就是label
Pclass–类别型变量,1、2/3分别代表头等舱到下等舱
Name–姓名,姓名看起来没什么用,但是可以用来判定是否一家,在年龄缺失的时候可以用来断定
sex–性别,类别型变量
Age–年龄,有缺失值,如果年龄小于1,则年龄为分数。如果估计年龄,是否为xx.5
SibSp–家庭成员,数据集定义这样的家庭关系…… 兄弟姐妹=兄弟,姐妹,同父异母的弟弟,义妹配偶=丈夫,妻子(包二奶和未婚夫被忽略)
Parch–父=母亲,父亲 儿童=女儿,儿子,继女,继子 一些孩子只带着保姆旅行,因此parch = 0。
Ticket–票号,基本无用
Fare–乘客票价,基本也无用
Cabin–客舱号码,也基本无用
Embarked–登船港口, C =瑟堡,Q =皇后镇,S =南安普敦,,,这个变量也基本无用。。
经过初步考虑,我选择暂时保留Pclass,Name,Sex,Age,SibSp,Parch这几个变量,并对这些变量进行进一步统计分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值