数据分析（二）_游戏与年龄相关性案例数据分析表-CSDN博客

本文链接：https://blog.csdn.net/windowsyun/article/details/78306036

数据清洗

做完特征分析后，先来看一下train表变成什么样子，再看看还需要做些什么

train.head(10)

这里写图片描述

Cabin因为缺失值太多，暂且不考虑这一个特征。Ticket没看出有多大作用，也忽略掉。Age有一些缺失值，需要补上。还有一些特征已经提取过信息了，像SibSp, Parch已经归纳出IsAlone，就可以删除了。等等还有一些操作，得一步一步来。

首先先填补年龄，
前面说过年龄和称呼应该有很大关系，我们来验证下

fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylabel('Mean')
ax.set_xlabel('Title')
train.groupby('Title').Age.mean().plot(kind='bar')
plt.show()

这是各个称呼的年龄的平均值，再看看标准差

fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylabel('Std')
ax.set_xlabel('Title')
train.groupby('Title').Age.std().plot(kind='bar')
plt.show()

这里写图片描述

看来确实可以用称呼来模拟年龄

title_mapping = {"Mr": 3, "Miss": 2, "Mrs": 4, "Master": 1, "Rare": 5}
for dataset in full_data:
    dataset['Title'] = dataset['Title'].map(title_mapping)
    dataset['Title'] = dataset['Title'].fillna(0)
    age_avg = dataset.groupby('Title').Age.mean()
    age_std = dataset.groupby('Title').Age.std()
    for i in range(1,6):
        dataset.loc[(dataset.Age.isnull()) & (dataset.Title == i), 'Age'] = np.random.randint(age_avg[i] - age_std[i],\
            age_avg[i] + age_std[i])
    dataset['Age'] = dataset['Age'].astype(int)
train.head(15)

这里写图片描述

年龄已经补全了，然而我们要做的还有很多很多。接下来还要将年龄转换为类别，我这里就直接将年龄从0到80划分为5个年龄段

train['AgeBand'] = pd.cut(train['Age'], 5)
for dataset in full_data:    
    dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4
train.head()

同样，还要将票价特征做同样的处理

train['FareBand'] = pd.qcut(train['Fare'], 4)
train[['FareBand', 'Survived']].groupby(['FareBand'], as_index=False).mean().sort_values(by='FareBand', ascending=True)

for dataset in full_data:
    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] = 0
    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2
    dataset.loc[ dataset['Fare'] > 31, 'Fare'] = 3
    dataset['Fare'] = dataset['Fare'].astype(int)
train.head(10)

特征有点多，先删减一点

train = train.drop(['Name',  'Ticket', 'Cabin', 'SibSp', 'FamilySize', 'Parch', 'AgeBand', 'FareBand', 'PassengerId'], axis = 1)
train.head(10)

这里写图片描述

再然后就进入到最后的数据编码阶段，我们要对 Pclass, Sex, Embarked, IsAlone 进行一位有效编码，又叫独热编码

for dataset in full_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S') # 忘了补全
train = pd.get_dummies(train, columns=["Pclass", "Embarked", "IsAlone", "Sex"])
train.head(10)