菜鸟de大数据之路——（1）Kaggle数据集Titanic分析

最新推荐文章于 2024-07-30 09:41:53 发布

DouglasLikeToCode

最新推荐文章于 2024-07-30 09:41:53 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签： ensemble learning machine learning Kaggle

本文链接：https://blog.csdn.net/zzl1060549268/article/details/88864385

版权

本文介绍了参加Kaggle Titanic竞赛的初步数据分析过程，包括数据导入、缺失值处理、特征工程等步骤。通过探索性数据分析发现，一等舱乘客的生存率最高，女性和儿童的生存机会较大。在数据预处理中，针对Embarked、Cabin、Fare和Age的缺失值进行了填充，为后续的模型训练做准备。

摘要由CSDN通过智能技术生成

前言

Kaggle是一个2010年由Anthony Goldbloom创建的专门为数据科学服务的网站，提供数据科学竞赛，数据库托管，编写和代码分享服务，堪称数据科学家的交友平台。今天，我将试图解决Kaggle上面的经典入门问题——Titianic竞赛https://www.kaggle.com/naresh31/titanic-machine-learning-from-disaster。这个竞赛的主要目的是根据已有的训练集的存活数据，预测测试集的存活数据。下面我将具体介绍数据分析的七个步骤：

一，引入需要的库和数据集

1.引入需要的库

python提供了大量的用于数据处理，绘制图像的库，其中最常用的是pandas,numpy,matplotlib,seaborn这些，运用这些基础的库，我们可以方便的操作数据，分析数据。

#import essential modules for data analysis and data visualization
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import os

2.导入数据

Titanic数据集有两个部分组成：训练数据集train.csv和测试数据集test.csv，可以从Kaggle网站下载https://www.kaggle.com/c/titanic/data。需要完成的任务是，根据训练数据集去预测测试数据集的人员存活率，保存到csv文件中。可以用pandas的read_csv方法实现，将数据保存到一个DataFrame数据结构中。

#Importing the datasets
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

3. 数据分析

首先看一下train.csv和test.csv的数据组成，可以用pandas的sample方法。也可以用describe和info方法看一看数据的详细信息。

# Let's take a look!
display(train.sample(5),test.sample(5),train.describe(),test.describe(),train.info(),test.info())

最低0.47元/天解锁文章

DouglasLikeToCode

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录