之前,在知乎上看见网友提出了如下问题:假设excel表中有如下数据,需要根据编码分组并并求出数量之和。但是感觉用excel自身的功能感觉操作并不简单,于是决定使用pandas解决,并尽可能多的了解一下pandas中的groupby 函数
1、groupby函数两行代码解决
# 第一个参数:哪个工作薄,第二个参数,哪个工作表
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1')
>>> df
编码 组别 数量
0 K123 A 12
1 K123 A 14
2 K123 A 34
3 K124 A 32
4 K123 B 42
5 K123 B 12
6 K123 B 12
7 K124 B 43
8 K123 B 23
# 按照编码分组,并对分组结果进行求和。
>>> df.groupby(['编码']).sum()
编码 数量
K123 149
K124 75
# 先按照编码分组,再按照组别分组
>>> df.groupby(['编码', '组别']).sum()
编码 组别 数量
K123 A 60
B 89
K124 A 32
B 43
>>> df.groupby(['组别', '编码']).sum()
组别 编码 数量
A K123 60
K124 32
B K123 89
K124 43
2、其实groupby()中的[]接受的不仅是列名,还可以接受函数,函数会对index(在读取excel时,可以将某一列指定为index列)列中的每一个记录应用函数,并按照函数的返回结果进行分类。
(1)假设有如下需求,编码这一列中有以K开头的,也有以J开头的,那么如何按照‘编码‘’这一列中的K,J组分类求和呢?
# 读取某个excel表数据,需要指定index列,目前制定了‘编码’列
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index_col='编码')
>>> df
编码 组别 数量
K123 A 12
K123 A 14
K123 A 34
K124 A 32
K123 B 42
K123 B 12
K123 B 12
K124 B 43
K123 B 23
J123 B 23
J123 B 23
J124 B 23
J124 B 23
J124 B 23
# lambda x : x[0]表示对index列中的每一行记录取第一个字符,并按照结果分类,当然也可以使用def定义函数,实现比较复杂的功能
>>> df.groupby([lambda x : x[0]]).sum()
数量
J 115
K 224
# 定义一个函数,仅返回每一列的第一个字符
>>> def get_first(x):
return x[0]
# 应用这个函数,得到的是相同结果
>>> df.groupby([lambda x : get_first(x)]).sum()
数量
J 115
K 224
# 当然,在进行以上分组后,仍然可以按照列名分组,请看如下,先按照函数分组,再按照‘组别’分组
>>> df.groupby([lambda x : get_first(x), '组别']).sum()
组别 数量
J B 115
K A 92
B 132
哈哈,使用pandas的groupby函数分组汇总就是这么简单强大。欢迎关注我的公众号:python小工具。关注就有福利哦