【Kaggle实战】Python进行泰坦尼克生存预测

本文通过Kaggle上的泰坦尼克数据集,使用Python进行数据清理、特征工程和模型建立。分析了乘客年龄、船票价格、登船港口和船舱号的缺失情况,并通过one-hot编码处理分类变量。尝试了逻辑回归和随机森林算法,结果显示两种模型预测结果接近,随机森林稍逊于逻辑回归。
摘要由CSDN通过智能技术生成

一、问题
——预测泰坦尼克号乘客的存活状态

二、数据理解
1.数据来源: https://www.kaggle.com/c/titanic/data
得到两个csv文件:
① train.csv:包含一部分乘客的基本信息和生存状态。
② test.csv:包含了另一部分乘客的基本信息,无生存状态,需要建模预测。

2.导入包和数据

#导入包
import numpy as np
import pandas as pd
#导入数据
train = pd.read_csv("train.csv")
test  = pd.read_csv("test.csv")
print ('训练数据集:',train.shape,'测试数据集:',test.shape)

训练数据集: (891, 12) 测试数据集: (418, 11)

3.查看数据

train.head()
test.head()
train.info()
print ('------------------------------------')
test.info()

4.合并数据,方便后面一起进行数据清理

#合并数据集,方便同时对两个数据集进行清洗
union = train.append( test , ignore_index = True )
print ('合并后的数据集:',union.shape)
union.info()

在这里插入图片描述
分析:
数据总共有1309行。变量分别是:Passengerld 乘客编号,Survived 生存情况(1=存活,0=死亡),Pclass客舱等级(1=1等舱,2=2等舱,3=3等舱),Name姓名,Sex性别,Age年龄,SibSp船上兄妹姐妹数、配偶数,Parch 船上父母数、子女数,Ticket 船票编号,Fare船票价格,Cabin 客舱号,Embarked 登船港口
数值型变量:Age,Fare,Parch,Passengerld,Pclass,SibSp,Survived
非数值型变量:Cabin,,Embarked,Name,Sex,Ticket
其中数值型变量中年龄(Age)、船舱号(Cabin)里面有缺失数据;非数值型变量中登船港口(Embarked)和船舱号(Cabin)里面有缺失数据。
1)年龄(Age)里面数据总数是1046条,缺失了1309-1046=263,缺失率263/1309=20%。
2)船票价格(Fare)里面数据总数是1308条,缺失了1条数据。
字符串列:
3)登船港口(Embarked)里面数据总数是1307条,只缺失了2条数据。
4)船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值