从泰坦尼克项目中,学习数据处理

个人博客

前言

学习机器学习也有一段时间了,在这段时间内,有很多感想,其中之一就是数据处理的重要。
在机器学习中,一般使用pandas进行数据的处理,使用matplotlib或者seaborn进行图形化数据,两者结合起来处理和分析数据,能让之后的步骤事半功倍。
用来学习的项目是kaggle上的项目,有很多人分享了对这个项目的处理方法,我认为这个项目很重要的一点就是,数据的分析和处理,比模型更加重要。

分析

拿到数据,首先可以一窥数据大概,将数据展示出来看看大概构成:

train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')
combine = [train, test]
train.head()
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th…female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS

其中数据栏目分别为:id,是否获救,座位等级,姓名,性别,年龄,船上兄弟姐妹个数,船上父母子女个数,票号,票价,客舱号,登陆港口

接下来就要开始分析这些数据了。

基于个人理解,船上人员如果绅士,那么最有可能和存活相关的应该是性别,年龄。

然后考虑的应该是当时的社会等级,有可能相关的是座位等级,票价。

还有可能和当时团队力量相关,那么是否有亲人在船上也是一个可以考虑的因素。

现在就要验证之前的想法:

train[['Sex', 'Survived']].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)
SexSurvived
0female0.742038
1male0.188908
train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)
PclassSurvived
010.629630
120.472826
230.242363
train[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)
SibSpSurvived
110.535885
220.464286
000.345395
330.250000
440.166667
550.000000
680.000000
train[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)
ParchSurvived
330.600000
110.550847
220.500000
000.343658
550.200000
440.000000
660.000000

直接能够分析的几个数据已经看出来了,其中性别和座位等级确实对获救影响很大,亲人数量影响不是很绝对。

还有几个其他的数据,都可以像这样来分析,分析出来数据之后,可以判断出这个条件是否是决定存活与否的关键因素。

数据补充

还有几个维度的数据有缺失,需要进行数据处理,所以先进行一下数据的处理,为缺失的年龄数据补齐,补充数据的思路很多,可以随机年龄,可以平均年龄:

for dataset in combine:
    age_guess = dataset['Age'].dropna().median()
    dataset.loc[dataset.Age.isnull(), 'Age'] = age_guess
    dataset['Age'] = dataset['Age'].astype(int)

train.head()
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale2210A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th…female3810PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale2600STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female351011380353.1000C123S
4503Allen, Mr. William Henrymale35003734508.0500NaNS

年龄补充完整之后,分析年龄。
因为像年龄这种带跨度的数据,可以使用跨度来进行分析,用pandas的cut方法生成跨度字段,再通过跨度字段进行统计:

train['AgeBand'] = pd.cut(train['Age'], 5)
train[['AgeBand', 'Survived']].groupby(['AgeBand'], as_index=False).mean().sort_values(by='AgeBand', ascending=True)
AgeBandSurvived
0(-0.08, 16.0]0.550000
1(16.0, 32.0]0.344762
2(32.0, 48.0]0.403226
3(48.0, 64.0]0.434783
4(64.0, 80.0]0.090909

可以看到年龄段对生存的影响不是很绝对,但是也有将近一半的概率。

其他的数据中,也有一部分数据是缺失的,可以用上面提到的办法,或者更巧妙的办法进行补充,补充之后进行统计,更加准确。

for dataset in combine:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')

标准化

目前数据都已经分析好,或者说准备好,但是这些数据还不能直接用来做模型的输入。

因为模型不能处理如:male, female。这样的文字。而且Fare这一栏中,数字要远远大过其他栏的数字,这样Fare的影响可能会让模型不够准确。所以在进行模型训练之前,先要对数据进行标准化。

以年龄标准化为例:

for dataset in combine:
    dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4
train.head()
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarkedAgeBand
0103Braund, Mr. Owen Harrismale110A/5 211717.2500NaNS(16.0, 32.0]
1211Cumings, Mrs. John Bradley (Florence Briggs Th…female210PC 1759971.2833C85C(32.0, 48.0]
2313Heikkinen, Miss. Lainafemale100STON/O2. 31012827.9250NaNS(16.0, 32.0]
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female21011380353.1000C123S(32.0, 48.0]
4503Allen, Mr. William Henrymale2003734508.0500NaNS(32.0, 48.0]

将性别和登陆地也进行标准化,使用map函数来做比较简单:

for dataset in combine:
    dataset['Sex'] = dataset['Sex'].map( {'female': 1, 'male': 0} ).astype(int)
    dataset['Embarked'] = dataset['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)

train.head()
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarkedAgeBand
0103Braund, Mr. Owen Harris0110A/5 211717.2500NaN0(16.0, 32.0]
1211Cumings, Mrs. John Bradley (Florence Briggs Th…1210PC 1759971.2833C851(32.0, 48.0]
2313Heikkinen, Miss. Laina1100STON/O2. 31012827.9250NaN0(16.0, 32.0]
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)121011380353.1000C1230(32.0, 48.0]
4503Allen, Mr. William Henry02003734508.0500NaN0(32.0, 48.0]

去掉我们所不需要的数据(当然,只是我懒,不想分析其他的因素了):

train = train.drop(['Name', 'PassengerId', 'Ticket', 'Fare', 'Cabin', 'AgeBand'], axis=1)
test = test.drop(['Name', 'PassengerId', 'Ticket', 'Fare', 'Cabin'], axis=1)

train.head()
SurvivedPclassSexAgeSibSpParchEmbarked
00301100
11112101
21311000
31112100
40302000

总结

到这一步,就可以开始训练模型了。具体的训练模型还是不写在这里了,本文章是看了这篇文章理解之后写的,简化和更改了(因为懒),英文好的同学,可以看原版。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值