菜鸟de大数据之路——(1)Kaggle数据集Titanic分析

前言

Kaggle是一个2010年由Anthony Goldbloom创建的专门为数据科学服务的网站,提供数据科学竞赛,数据库托管,编写和代码分享服务,堪称数据科学家的交友平台。今天,我将试图解决Kaggle上面的经典入门问题——Titianic竞赛https://www.kaggle.com/naresh31/titanic-machine-learning-from-disaster。这个竞赛的主要目的是根据已有的训练集的存活数据,预测测试集的存活数据。下面我将具体介绍数据分析的七个步骤:

一,引入需要的库和数据集

1.引入需要的库

python提供了大量的用于数据处理,绘制图像的库,其中最常用的是pandas,numpy,matplotlib,seaborn这些,运用这些基础的库,我们可以方便的操作数据,分析数据。

#import essential modules for data analysis and data visualization
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import os

2.导入数据

Titanic数据集有两个部分组成:训练数据集train.csv和测试数据集test.csv,可以从Kaggle网站下载https://www.kaggle.com/c/titanic/data。需要完成的任务是,根据训练数据集去预测测试数据集的人员存活率,保存到csv文件中。可以用pandas的read_csv方法实现,将数据保存到一个DataFrame数据结构中。

#Importing the datasets
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

3. 数据分析

首先看一下train.csv和test.csv的数据组成,可以用pandas的sample方法。也可以用describe和info方法看一看数据的详细信息。

# Let's take a look!
display(train.sample(5),test.sample(5),train.describe(),test.describe(),train.info(),test.info())

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值