python利用pandas实现excel数据分组汇总

最新推荐文章于 2025-03-22 11:05:32 发布

python小工具

最新推荐文章于 2025-03-22 11:05:32 发布

阅读量1.9w

点赞数 19

文章标签： python excel 数据分析

本文链接：https://blog.csdn.net/weixin_45144170/article/details/104323786

版权

之前，在知乎上看见网友提出了如下问题：假设excel表中有如下数据，需要根据编码分组并并求出数量之和。但是感觉用excel自身的功能感觉操作并不简单，于是决定使用pandas解决，并尽可能多的了解一下pandas中的groupby 函数
在这里插入图片描述
1、groupby函数两行代码解决

# 第一个参数：哪个工作薄，第二个参数，哪个工作表
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1')
>>> df
     编码 组别  数量
0  K123  A  12
1  K123  A  14
2  K123  A  34
3  K124  A  32
4  K123  B  42
5  K123  B  12
6  K123  B  12
7  K124  B  43
8  K123  B  23
# 按照编码分组，并对分组结果进行求和。
>>> df.groupby(['编码']).sum()
编码   数量       
K123  149
K124   75
# 先按照编码分组，再按照组别分组
>>> df.groupby(['编码', '组别']).sum()         
编码 组别 数量  
K123 A   60
     B   89
K124 A   32
     B   43
>>> df.groupby(['组别', '编码']).sum()         
组别 编码 数量    
A  K123  60
   K124  32
B  K123  89
   K124  43

2、其实groupby()中的[]接受的不仅是列名，还可以接受函数，函数会对index（在读取excel时，可以将某一列指定为index列）列中的每一个记录应用函数，并按照函数的返回结果进行分类。

在这里插入图片描述
(1)假设有如下需求，编码这一列中有以K开头的，也有以J开头的，那么如何按照‘编码‘’这一列中的K,J组分类求和呢？

# 读取某个excel表数据，需要指定index列，目前制定了‘编码’列
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index_col='编码')
>>> df
编码  组别 数量         
K123  A  12
K123  A  14
K123  A  34
K124  A  32
K123  B  42
K123  B  12
K123  B  12
K124  B  43
K123  B  23
J123  B  23
J123  B  23
J124  B  23
J124  B  23
J124  B  23
# lambda x : x[0]表示对index列中的每一行记录取第一个字符，并按照结果分类，当然也可以使用def定义函数，实现比较复杂的功能
>>> df.groupby([lambda x : x[0]]).sum()
    数量
J  115
K  224
# 定义一个函数，仅返回每一列的第一个字符
>>> def get_first(x):
	return x[0]
# 应用这个函数，得到的是相同结果
>>> df.groupby([lambda x : get_first(x)]).sum()
    数量
J  115
K  224
# 当然，在进行以上分组后，仍然可以按照列名分组，请看如下，先按照函数分组，再按照‘组别’分组
>>> df.groupby([lambda x : get_first(x), '组别']).sum()
  组别 数量  
J B   115
K A    92
  B   132