泰坦尼克训练数据集

这篇博客分享了如何利用机器学习技术对泰坦尼克号乘客数据进行分析,提供了数据集的下载链接(链接:https://pan.baidu.com/s/175zFJE1NS2QoSP8P1omo_g,提取码:t1k8),并提示读者需自行调整代码中的文件路径。
摘要由CSDN通过智能技术生成

链接:https://pan.baidu.com/s/175zFJE1NS2QoSP8P1omo_g
提取码:t1k8

代码如下:注意要修改文件路径哦

# 1、查看训练集数据情况
import pandas as pd

data_train = pd.read_csv("E:\\Desktop\\train.csv")
print(data_train.shape)
data_train.info()

# 2、查看测试集数据情况
data_test = pd.read_csv("E:\\Desktop\\test.csv")
print(data_test.shape)
data_test.info()

# 3、缺失值处理(使用随机森林预测填充)
from sklearn.ensemble import RandomForestRegressor

# 把要填充的特征和其他无缺失的特征取出,这里先处理Age特征
age_df = data_train[['Age','Fare','Parch','SibSp','Pclass']]

# 将乘客分成已知年龄和未知年龄两部分,分别作为训练集和测试集
age_know = age_df[age_df.Age.notnull()].iloc[:,:].values
age_unknow = age_df[age_df.Age.isnull()].iloc[:,:].values

# 获取训练集特征和结果标签
X=age_know[:,1:] # 训练集特征
y=age_know[:,0] # 训练集的结果标签

# 利用上面构建的训练集训练随机森林回归模型
RF_clf =RandomForestRegressor(random_state=0,n_estimators=200,n_jobs=
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值