文章目录
1.3 pandas快速入门
1.3.1 安装导入
首先安装pandas库,打开终端执行以下命令:
pip install pandas matplotlib
# 国内源
pip install pandas matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
安装完成后,在终端启动jupyter notebook,导入Pandas, 按惯例起别名pd:
import pandas as pd
1.3.2 准备数据集
数据集(Data set / dataset), 又称资料集、数据集合或资料集合, 是一种由数据组成的集合,简单理解成一个excel表格。
常用数据集team.xlsx(下载网址:https://www.gairuo.com/file/data/dataset/team.xlsx)
1.3.3 读取数据
将数据读取到Pandas里,变量名用df(DataFrame的缩写), 它是Pandas二维数据的基础结构。
df = pd.read_excel('team.xls') # 原文是team.xlsx,但是我的xlrd包一直无法读取.xlsx文件,因此改了文件类型
# 如果是csv, 使用pd.read_csv(), 还支持很多类型的数据读取
变量df的内容:
- 自动增加了第一列,是Pandas为数据增加的索引,从0开始,程序不知道我们真正的业务索引,往往需要后面重新指定,使它有一定的业务意义;
- 由于数据量大,自动隐藏了中间部分,只显示前后5条;
- 底部显示行数和列数。
1.3.4 查看数据
随机查看5条的结果如下所示:
1.3.5 验证数据
df.info()显示有数据类型、索引情况、行列数和各字段数据类型、内存占用等:
df.describe()会计算出各数字字段的总数(count)、平均数(mean)、标准差(std)、最小值(min)、四分位数和最大值(max):
1.3.6 建立索引
以上数据真正业务意义上的索引是name列,所以需要使它成为索引:
其中,可选参数inplace=True会将指定好索引的数据再赋值给df使索引生效,否则索引不会生效。
注意,这里并没有修改原本的Excel文件,从读取数据后就已经和它没有关系了,我们处理的是内存中的df变量。
将name建立索引之后,就没有从0开始的数字索引了:
1.3.7 数据选取
(1) 选择列
返回的是Series类型数据,可以理解成数列,它也是带索引的,之前建立的索引在这里发挥了作用,否则我们的索引是一个数字,无法知道与之对应的是谁的数据。
选择多列的可以用以下方法:
dd.loc[X, y]是一个非常强大的数据选择函数,其中X代表行,y代表列,行和列都支持条件表达式,也支持类似列表的切片(如果要用自然索引,需要用df.iloc[])。
(2)选择行
(3)指定行和列
同时给定行和列的显示范围:
(4)条件选择
1.3.8 排序
1.3.9 分组聚合
1.3.10 数据转换
原数据表:
对数据表进行转置:
对数据表展开:
对数据表使用unstack:
1.3.11 增加列
1.3.12 统计分析
根据数据分析目标,使用以下函数:
1.3.13 绘图
Pandas利用plot()调用matplotlab快速绘制出数据可视化图形。注意,第一次使用plot()时可能需要执行两次才能显示图形。
plot()可以快速绘制折线图:
选择要展示的数据,再绘图:
使用plot.bar绘制柱形图:
plot.barh绘制横向柱状图:
对数据聚合计算后,可以绘制多条折线图:
使用pie绘制饼图:
1.3.14 导出
导出的文件位于notebook文件的同一目录下。
参考文献:《深入浅出Pandas:利用python进行数据处理与分析》