【学习笔记】《深入浅出Pandas》第1章：pandas简介及快速入门

Schanappi

已于 2022-10-31 11:21:50 修改

阅读量2.4k

点赞数

分类专栏：《深入浅出Pandas》学习笔记文章标签： pandas 学习 python

于 2022-09-04 15:39:02 首次发布

本文链接：https://blog.csdn.net/weixin_43894455/article/details/126686418

版权

《深入浅出Pandas》学习笔记专栏收录该内容

17 篇文章 51 订阅

订阅专栏

本文介绍了Pandas库的安装、数据读取与查看，包括使用`read_excel`读取Excel文件，通过`info`和`describe`验证数据，以及如何建立索引、选取数据、排序、分组聚合。此外，还讲解了数据转换、增加列、统计分析和绘图功能，如利用`plot`函数进行数据可视化，并展示了如何导出数据。

摘要由CSDN通过智能技术生成

文章目录

1.3 pandas快速入门

1.3 pandas快速入门

1.3.1 安装导入

首先安装pandas库，打开终端执行以下命令：

pip install pandas matplotlib
# 国内源
pip install pandas matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，在终端启动jupyter notebook，导入Pandas，按惯例起别名pd：

import pandas as pd

1.3.2 准备数据集

数据集（Data set / dataset），又称资料集、数据集合或资料集合，是一种由数据组成的集合，简单理解成一个excel表格。
常用数据集team.xlsx（下载网址：https://www.gairuo.com/file/data/dataset/team.xlsx）

1.3.3 读取数据

将数据读取到Pandas里，变量名用df（DataFrame的缩写）, 它是Pandas二维数据的基础结构。

df = pd.read_excel('team.xls') # 原文是team.xlsx，但是我的xlrd包一直无法读取.xlsx文件，因此改了文件类型
# 如果是csv， 使用pd.read_csv()， 还支持很多类型的数据读取

变量df的内容：

自动增加了第一列，是Pandas为数据增加的索引，从0开始，程序不知道我们真正的业务索引，往往需要后面重新指定，使它有一定的业务意义；
由于数据量大，自动隐藏了中间部分，只显示前后5条；
底部显示行数和列数。

1.3.4 查看数据

在这里插入图片描述
随机查看5条的结果如下所示：

1.3.5 验证数据

在这里插入图片描述
df.info()显示有数据类型、索引情况、行列数和各字段数据类型、内存占用等：

df.describe()会计算出各数字字段的总数（count）、平均数（mean）、标准差（std）、最小值（min）、四分位数和最大值（max）：

在这里插入图片描述

1.3.6 建立索引

以上数据真正业务意义上的索引是name列，所以需要使它成为索引：
在这里插入图片描述
其中，可选参数inplace=True会将指定好索引的数据再赋值给df使索引生效，否则索引不会生效。
注意，这里并没有修改原本的Excel文件，从读取数据后就已经和它没有关系了，我们处理的是内存中的df变量。
将name建立索引之后，就没有从0开始的数字索引了：
在这里插入图片描述

1.3.7 数据选取

（1）选择列
返回的是Series类型数据，可以理解成数列，它也是带索引的，之前建立的索引在这里发挥了作用，否则我们的索引是一个数字，无法知道与之对应的是谁的数据。
在这里插入图片描述
选择多列的可以用以下方法：

dd.loc[X, y]是一个非常强大的数据选择函数，其中X代表行，y代表列，行和列都支持条件表达式，也支持类似列表的切片（如果要用自然索引，需要用df.iloc[]）。

（2）选择行
在这里插入图片描述

（3）指定行和列
同时给定行和列的显示范围：

（4）条件选择

1.3.8 排序

在这里插入图片描述

1.3.9 分组聚合

在这里插入图片描述

1.3.10 数据转换

原数据表：
在这里插入图片描述

对数据表进行转置：
在这里插入图片描述
对数据表展开：

对数据表使用unstack：

1.3.11 增加列

在这里插入图片描述

1.3.12 统计分析

根据数据分析目标，使用以下函数：
在这里插入图片描述

1.3.13 绘图

Pandas利用plot()调用matplotlab快速绘制出数据可视化图形。注意，第一次使用plot()时可能需要执行两次才能显示图形。
plot()可以快速绘制折线图：
在这里插入图片描述
选择要展示的数据，再绘图：

使用plot.bar绘制柱形图：

plot.barh绘制横向柱状图：

对数据聚合计算后，可以绘制多条折线图：

使用pie绘制饼图：