kaggle 泰坦尼克号2 得分0.7799

黑白子2000

已于 2024-04-21 09:18:22 修改

阅读量679

点赞数 11

文章标签：机器学习 python

于 2024-04-20 19:48:07 首次发布

本文链接：https://blog.csdn.net/weixin_45079974/article/details/138006140

版权

本文介绍了如何在Titanic数据集中处理缺失值，包括填充Fare和Embarked列，以及使用随机森林回归预测年龄。随后提取了特征如Title、FamilySize等，并将数据集划分为训练集和测试集，最后用随机森林分类器进行模型训练并生成预测结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

train=pd.read_csv('train.csv')
test=pd.read_csv('test.csv')
datas = pd.concat([train, test], ignore_index = True)

datas.info()

在这里插入图片描述
看到了有空值的属性列，Age,Fare,Cabin,Embarked
下面的操作就是给这些空值填充。

首先填充少的Fare票价少了一行，先看一看这一行的信息

datas[datas['Fare'].isnull()]

在这里插入图片描述
已知信息，pclass等级是三类，说明比较贫穷
直接填一个较低的数字就行了
票价就给个差不多7.8好了，就一个数据缺失影响不大

datas['Fare']=datas['Fare'].fillna(7.8)

Embarked少了两行，先看一下这两行的信息

datas[datas['Embarked'].isnull()]

在这里插入图片描述
首先二人是女性，根据他们的女士优先的原则，存活概率比较高，pclass也是一级的，所以根据分配给他们三个港口存活率最高的C港口

datas['Embarked'] = datas['Embarked'].fillna('C')

还有Cabin船仓，缺失的很多，干脆把缺失的也归为一类，直接填充为U,然后每个取首字母，得到以字母为编号的船舱信息
空白填充为U

datas['Cabin']=datas['Cabin']