菜鸟de大数据之路——(1)Kaggle数据集Titanic分析

本文介绍了参加Kaggle Titanic竞赛的初步数据分析过程,包括数据导入、缺失值处理、特征工程等步骤。通过探索性数据分析发现,一等舱乘客的生存率最高,女性和儿童的生存机会较大。在数据预处理中,针对Embarked、Cabin、Fare和Age的缺失值进行了填充,为后续的模型训练做准备。
摘要由CSDN通过智能技术生成

前言

Kaggle是一个2010年由Anthony Goldbloom创建的专门为数据科学服务的网站,提供数据科学竞赛,数据库托管,编写和代码分享服务,堪称数据科学家的交友平台。今天,我将试图解决Kaggle上面的经典入门问题——Titianic竞赛https://www.kaggle.com/naresh31/titanic-machine-learning-from-disaster。这个竞赛的主要目的是根据已有的训练集的存活数据,预测测试集的存活数据。下面我将具体介绍数据分析的七个步骤:

一,引入需要的库和数据集

1.引入需要的库

python提供了大量的用于数据处理,绘制图像的库,其中最常用的是pandas,numpy,matplotlib,seaborn这些,运用这些基础的库,我们可以方便的操作数据,分析数据。

#import essential modules for data analysis and data visualization
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import os

2.导入数据

Titanic数据集有两个部分组成:训练数据集train.csv和测试数据集test.csv,可以从Kaggle网站下载https://www.kaggle.com/c/titanic/data。需要完成的任务是,根据训练数据集去预测测试数据集的人员存活率,保存到csv文件中。可以用pandas的read_csv方法实现,将数据保存到一个DataFrame数据结构中。

#Importing the datasets
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

3. 数据分析

首先看一下train.csv和test.csv的数据组成,可以用pandas的sample方法。也可以用describe和info方法看一看数据的详细信息。

# Let's take a look!
display(train.sample(5),test.sample(5),train.describe(),test.describe(),train.info(),test.info())

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值