目录
本文旨在结合经典案例:泰坦尼克号数据集,介绍pandas的基础操作,力求简洁清晰,可以作为一个教程,也可以作为一个速查表,欢迎多多收藏点赞~
泰坦尼克号数据集是一个非常经典的数据集,它记录了泰坦尼克号的乘客信息,包括年龄、性别、是否存活等等。
我们可以用pandas来对其进行分析,一步一步揭开数据里的秘密,探索泰坦尼克号生还者们背后的真相
1.导入库
首先,我们要把我们的工具:pandas,从工具箱里拿出来
import pandas as pd
2.数据读取
pandas是一个处理数据的全能型工具箱,你能想到的任何数据处理的操作,它都能做
然后用pandas取出我们要加工的对象:数据集。
data = pd.read_csv("Titanic.csv")
3.基本信息查看
查看数据有哪些字段:
# 查看数据有哪些字段
data.columns
# 描述性统计分析
data.describe()
# 展示前3行数据
data.head(3)
4.获取列
# 获取单列
data.Name
# 获取多列
data[["Name","Age"]]
5.缺失值处理
有时候数据并不不完整,存在一些缺失,这时候可以对缺失值进行一些填充
# 查看各列缺失值个数
data.isnull().sum()
# 指