matplotlib柱状图轴标签自定义排序

最新推荐文章于 2025-04-25 11:05:39 发布

Seon塞翁

最新推荐文章于 2025-04-25 11:05:39 发布

阅读量7.4k

点赞数 2

分类专栏：干货文章标签： python 数据分析排序 matplotlib pandas

本文链接：https://blog.csdn.net/zohan134/article/details/116086706

版权

干货专栏收录该内容

16 篇文章

订阅专栏

前言：大家好，这里是Seon塞翁。昨天一位同学提问 “matplotlib 画柱状图时，横坐标是从表格中指定列获取的，如何设置横坐标的顺序呢？” 原始数据结构如下图所示，需要对学历分组求平均工资后画柱状图，顺序应为按学历由低到高，即 ['大专', '本科', '硕士', '博士'] 。
在这里插入图片描述
通过以下代码直接画图的结果如下图所示，未满足需求的顺序，下面我们来看看应该如何实现。

grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
x = grp['学历要求']
y = grp['平均工资']
plt.bar(x, y)
plt.show()

在这里插入图片描述

一、在绘图时修改默认顺序

直接上大佬给的解决方案。

grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
plt.bar([4, 1, 2, 3], grp['平均工资'], tick_label=grp['学历要求'])

通过默认顺序，我们可以知道原来 1、 2、 3、 4 位分别是博士、大专、本科、硕士，那么我们需要让博士排在第 4 位，后三者顺位前移，所以在绘图函数的第一个参数中传入新的顺序列表 [4, 1, 2, 3] 。第二个参数转入原始 y 轴值，最后通过 tick_label 参数指定 x 轴标签，随机便得到了需求的柱状图。
在这里插入图片描述

二、在传入绘图函数前手动排序

这是另一位大佬提示的解法，十分直观。先给定自定义顺序的 x 轴标签列，再按这个顺序去排列 y 轴值。

grp = df.groupby('学历要求')['平均工资'].mean()
x = ['大专', '本科', '硕士', '博士']
y = [grp[label] for label in x]
plt.bar(x, y)

由于忘记了 matplotlib 和 pandas 之间有着很好的兼容性，笔者一开始打算先得到需求顺序的 x = ['大专', '本科', '硕士', '博士'] 和 y = [ 具体的值 ] 再通过 plt.bar(x, y) 制图，因此在数据整理上跑偏了，比如：

y = [grp.at[label] for label in x]

下面分享一下笔者走的歪路。

三、自定义文本排序

计算机系统中存在一些默认顺序，比如数字顺序 0123456，字母顺序 abcdefg，还有 ASCII 码表顺序等，但对于中文习惯的顺序，比如学历，可能就需要自己制定了。那让我们专注排序本身，先来看看分组后的数据：
在这里插入图片描述
x = grp['学历要求'] 和 y = grp['平均工资'] 分别得到两个 Series 对象。那么应该如何将它们绑定在一起，根据 x 按照指定的 order_x = ['大专', '本科', '硕士', '博士'] 排序呢？

1、打包排序

我们可以通过 zip() 函数将其打包使之成为一个整体，然后通过列表生成式，得到修改顺序后的 y 轴值列表 order_y ，将 order_x 和 order_y 传入制图即可。

order_y = [t[1] for i in order_x for t in list(zip(x, y)) if i == t[0]]

其中 list(zip(x, y)) 的打印结果为： [('博士', 20.0), ('大专', 5.25), ('本科', 11.0), ('硕士', 15.33)] ；
列表生成式重新取出的元祖列表为：[('大专', 5.25), ('本科', 11.0), ('硕士', 15.33), ('博士', 20.0)] ；
order_y 为： [5.25, 11.0, 15.33, 20.0] 。

2、利用 pandas 重设索引排序

整体代码：

grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
df_map = pd.DataFrame({'学历要求': ['大专', '本科', '硕士', '博士']}).reset_index().set_index('学历要求')
grp['order'] = grp['学历要求'].map(df_map['index'])
grp.sort_values('order', inplace=True)
x = grp['学历要求']
y = grp['平均工资']

首先制作了一个 df_map ，相当于是排序对照表，将索引作为新的顺序列。在这里插入图片描述
将上面的顺序列，按照原 grp 的学历要求列，映射添加到新的 order 列。

再按照 order 列排序即可。

3、利用 CategoricalDtype 自定义顺序

CategoricalDtype 是 pandas 中一种用于处理【类别】的数据类型，可以指定类别是否有序。我们通过这个方法创建了一个有序 “类别类”，并修改学历要求列的数据类型为此类，此时各类学历文本便具有了其默认顺序，之后便可以对其直接排序。

from pandas.api.types import CategoricalDtype

grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
cat_order = CategoricalDtype(['大专', '本科', '硕士', '博士'], ordered=True)
grp['学历要求'] = grp['学历要求'].astype(cat_order)
grp.sort_values('学历要求', inplace=True)
x = grp['学历要求']
y = grp['平均工资']