数据分析(二)

数据清洗

做完特征分析后,先来看一下train表变成什么样子,再看看还需要做些什么

train.head(10)

这里写图片描述

Cabin因为缺失值太多,暂且不考虑这一个特征。Ticket没看出有多大作用,也忽略掉。Age有一些缺失值,需要补上。还有一些特征已经提取过信息了,像SibSp, Parch已经归纳出IsAlone,就可以删除了。等等还有一些操作,得一步一步来。

首先先填补年龄,
前面说过年龄和称呼应该有很大关系,我们来验证下

fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylabel('Mean')
ax.set_xlabel('Title')
train.groupby('Title').Age.mean().plot(kind='bar')
plt.show()


这是各个称呼的年龄的平均值,再看看标准差

fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylabel('Std')
ax.set_xlabel('Title')
train.groupby('Title').Age.std().plot(kind='bar')
plt.show()

这里写图片描述

看来确实可以用称呼来模拟年龄

title_mapping = {"Mr": 3, "Miss": 2, "Mrs": 4, "Master": 1, "Rare": 5}
for dataset in full_data:
    dataset['Title'] = dataset['Title'].map(title_mapping)
    dataset['Title'] = dataset['Title'].fillna(0)
    age_avg = dataset.groupby('Title').Age.mean()
    age_std = dataset.groupby('Title').Age.std()
    for i in range(1,6):
        dataset.loc[(dataset.Age.isnull()) & (dataset.Title == i), 'Age'] = np.random.randint(age_avg[i] - age_std[i],\
            age_avg[i] + age_std[i])
    dataset['Age'] = dataset['Age'].astype(int)
train.head(15)

这里写图片描述

年龄已经补全了,然而我们要做的还有很多很多。接下来还要将年龄转换为类别,我这里就直接将年龄从0到80划分为5个年龄段

train['AgeBand'] = pd.cut(train['Age'], 5)
for dataset in full_data:    
    dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4
train.head()

同样,还要将票价特征做同样的处理

train['FareBand'] = pd.qcut(train['Fare'], 4)
train[['FareBand', 'Survived']].groupby(['FareBand'], as_index=False).mean().sort_values(by='FareBand', ascending=True)

for dataset in full_data:
    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] = 0
    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2
    dataset.loc[ dataset['Fare'] > 31, 'Fare'] = 3
    dataset['Fare'] = dataset['Fare'].astype(int)
train.head(10)

特征有点多,先删减一点

train = train.drop(['Name',  'Ticket', 'Cabin', 'SibSp', 'FamilySize', 'Parch', 'AgeBand', 'FareBand', 'PassengerId'], axis = 1)
train.head(10)

这里写图片描述

再然后就进入到最后的数据编码阶段,我们要对 Pclass, Sex, Embarked, IsAlone 进行一位有效编码,又叫独热编码

for dataset in full_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S') # 忘了补全
train = pd.get_dummies(train, columns=["Pclass", "Embarked", "IsAlone", "Sex"])
train.head(10)

这里写图片描述

到这里应该差不多了,但是我觉得有一个小缺陷,Title的编号是1到5,我希望1到5的顺序是由年龄的平均值递增的,而我之前并没有注意到,打乱了他们的顺序,代码已经改好了,上传的图片就不改了,差别也不大。最后再上一张正确的图

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值