kaggle竞赛入门Titanic生存预测

最新推荐文章于 2024-01-22 05:58:01 发布

GJShine107

最新推荐文章于 2024-01-22 05:58:01 发布

阅读量1.4k

点赞数

分类专栏： kaggle竞赛

本文链接：https://blog.csdn.net/wojiaodabai/article/details/79346731

版权

本文介绍了参与Kaggle Titanic生存预测竞赛的初步步骤，包括数据清洗如处理缺失值（删除记录、插补）、数据可视化（乘客属性与获救情况关联）以及特征工程的初步操作。通过数据探索，展示了各乘客等级、性别和Cabin有无对获救情况的影响。

摘要由CSDN通过智能技术生成

Titanic是kaggle上的一道入门题目，很适合新手去练市数据分析。

这道题给的数据是泰坦尼克号上的乘客的信息，预测乘客是否幸存。这是个二元分类的机器学习问题。数据链接：https://www.kaggle.com/c/titanic/data

1. 数据清洗（Data Cleaning）

2. 探索性可视化（Exploratory Visualization）

3. 特征工程（Feature Engineering）

4. 基本建模&评估（Basic Modeling& Evaluation）

一。数据清洗

import pandas as pd
import numpy as np

train=pd.read_csv('F:\\kaggleData\\titanic\\train.csv')
train.head()
train.info()

train.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

标签解释：

PassengerId => 乘客ID
Pclass => 客舱等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 兄弟姐妹数/配偶数
Parch => 父母数/子女数

最低0.47元/天解锁文章

GJShine107

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
kaggle竞赛入门Titanic生存预测

Titanic是kaggle上的一道入门题目，很适合新手去练市数据分析。这道题给的数据是泰坦尼克号上的乘客的信息，预测乘客是否幸存。这是个二元分类的机器学习问题。数据链接：https://www.kaggle.com/c/titanic/data 1. 数据清洗（Data Cleaning）2. 探索性可视化（Exploratory Visualization）3. 特征工程（F...
复制链接

扫一扫