处理DataFrame数据——利用Groupby函数分类汇总数据并转为矩阵

燕南路GISer

已于 2022-04-08 14:06:34 修改

阅读量5.8k

点赞数 3

分类专栏： Python 文章标签： python

于 2021-03-22 23:13:42 首次发布

本文链接：https://blog.csdn.net/xza13155/article/details/115103882

版权

Python 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了如何利用Python的Pandas库对含有时间、数量和ID的数据进行分类汇总，通过groupby和unstack函数实现数据的统计和矩阵构建。首先，通过groupby对time和Id进行分组并求和；然后使用unstack将数据转换成所需矩阵格式，最后将处理后的矩阵保存为CSV文件。适合需要处理和分析多维度数据的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

我的手头有35万条数据，包含三个属性：时间、数量和ID。我现在需要以时间、ID分类，对数量进行求和统计（分类汇总）；然后以time列为行（x轴），ID为列（y轴），num为值建立矩阵。

读取数据如下：
在这里插入图片描述
我们可以利用groupby函数进行分类汇总
以time，id为key进行分类，然后对num进行求和统计;得到的是Series数据

df1=df.groupby(["time","Id"])["num"].sum()

在这里插入图片描述
Series数据有两层索引，第一层为time，第二层为id，可以根据两者定位数据

可以利用stack和unstack将数据旋转成我们需要的格式

stack()即“堆叠”，作用是将列旋转到行
unstack()即stack()的反操作，将行旋转到列

两者默认都是对最里层索引处理，也就id层旋转。但是我们可以传入参数制定旋转的索引

df1=df1.unstack(1)#对最里层旋转

在这里插入图片描述

df1=df1.unstack(0)#对最外层旋转

在这里插入图片描述
当然也可以对DataFrame数据进行旋转，就变回了Series数据

代码

import pandas as pd

df = pd.read_csv("data.csv",encoding='utf8',dtype={"num": int})

df1=df.groupby(["time","Id"])["num"].sum()
df1=df1.unstack()
df1=df1.fillna(0).astype(int)

df1.to_csv("矩阵.csv",index = False)