kaggle竞赛入门Titanic生存预测

本文介绍了参与Kaggle Titanic生存预测竞赛的初步步骤,包括数据清洗如处理缺失值(删除记录、插补)、数据可视化(乘客属性与获救情况关联)以及特征工程的初步操作。通过数据探索,展示了各乘客等级、性别和Cabin有无对获救情况的影响。
摘要由CSDN通过智能技术生成

Titanic是kaggle上的一道入门题目,很适合新手去练市数据分析。

这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题。数据链接:https://www.kaggle.com/c/titanic/data

 

1.    数据清洗(Data Cleaning)

2.    探索性可视化(Exploratory Visualization)

3.    特征工程(Feature Engineering)

4.    基本建模&评估(Basic Modeling& Evaluation)


一 。数据清洗

import pandas as pd
import numpy as np

train=pd.read_csv('F:\\kaggleData\\titanic\\train.csv')
train.head()
train.info()

train.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

标签解释:

  • PassengerId => 乘客ID
  • Pclass => 客舱等级(1/2/3等舱位)
  • Name => 乘客姓名
  • Sex => 性别
  • Age => 年龄
  • SibSp => 兄弟姐妹数/配偶数
  • Parch => 父母数/子女数
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值