【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门

1.3 pandas快速入门

1.3.1 安装导入

首先安装pandas库,打开终端执行以下命令:

pip install pandas matplotlib
# 国内源
pip install pandas matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后,在终端启动jupyter notebook,导入Pandas, 按惯例起别名pd:

import pandas as pd

1.3.2 准备数据集

数据集(Data set / dataset), 又称资料集、数据集合或资料集合, 是一种由数据组成的集合,简单理解成一个excel表格。
常用数据集team.xlsx(下载网址:https://www.gairuo.com/file/data/dataset/team.xlsx)

1.3.3 读取数据

将数据读取到Pandas里,变量名用df(DataFrame的缩写), 它是Pandas二维数据的基础结构。

df = pd.read_excel('team.xls') # 原文是team.xlsx,但是我的xlrd包一直无法读取.xlsx文件,因此改了文件类型
# 如果是csv, 使用pd.read_csv(), 还支持很多类型的数据读取

变量df的内容:

  1. 自动增加了第一列,是Pandas为数据增加的索引,从0开始,程序不知道我们真正的业务索引,往往需要后面重新指定,使它有一定的业务意义;
  2. 由于数据量大,自动隐藏了中间部分,只显示前后5条;
  3. 底部显示行数和列数。
    在这里插入图片描述

1.3.4 查看数据

在这里插入图片描述
随机查看5条的结果如下所示:
在这里插入图片描述

1.3.5 验证数据

在这里插入图片描述
df.info()显示有数据类型、索引情况、行列数和各字段数据类型、内存占用等:
在这里插入图片描述
df.describe()会计算出各数字字段的总数(count)、平均数(mean)、标准差(std)、最小值(min)、四分位数和最大值(max):

在这里插入图片描述

1.3.6 建立索引

以上数据真正业务意义上的索引是name列,所以需要使它成为索引:
在这里插入图片描述
其中,可选参数inplace=True会将指定好索引的数据再赋值给df使索引生效,否则索引不会生效。
注意,这里并没有修改原本的Excel文件,从读取数据后就已经和它没有关系了,我们处理的是内存中的df变量。
将name建立索引之后,就没有从0开始的数字索引了:
在这里插入图片描述

1.3.7 数据选取

(1) 选择列
返回的是Series类型数据,可以理解成数列,它也是带索引的,之前建立的索引在这里发挥了作用,否则我们的索引是一个数字,无法知道与之对应的是谁的数据。
在这里插入图片描述
选择多列的可以用以下方法:
在这里插入图片描述
dd.loc[X, y]是一个非常强大的数据选择函数,其中X代表行,y代表列,行和列都支持条件表达式,也支持类似列表的切片(如果要用自然索引,需要用df.iloc[])。

(2)选择行
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(3)指定行和列
同时给定行和列的显示范围:
在这里插入图片描述
在这里插入图片描述
(4)条件选择
在这里插入图片描述

1.3.8 排序

在这里插入图片描述

1.3.9 分组聚合

在这里插入图片描述

1.3.10 数据转换

原数据表:
在这里插入图片描述

对数据表进行转置:
在这里插入图片描述
对数据表展开:
在这里插入图片描述
对数据表使用unstack:
在这里插入图片描述

1.3.11 增加列

在这里插入图片描述

1.3.12 统计分析

根据数据分析目标,使用以下函数:
在这里插入图片描述

1.3.13 绘图

Pandas利用plot()调用matplotlab快速绘制出数据可视化图形。注意,第一次使用plot()时可能需要执行两次才能显示图形。
plot()可以快速绘制折线图
在这里插入图片描述
选择要展示的数据,再绘图:
在这里插入图片描述
使用plot.bar绘制柱形图
在这里插入图片描述
plot.barh绘制横向柱状图
在这里插入图片描述
对数据聚合计算后,可以绘制多条折线图:
在这里插入图片描述
使用pie绘制饼图
在这里插入图片描述

1.3.14 导出

在这里插入图片描述
导出的文件位于notebook文件的同一目录下。

参考文献:《深入浅出Pandas:利用python进行数据处理与分析》

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值