Pandas GroupBy 深度总结

最新推荐文章于 2024-03-03 15:53:13 发布

zhouluobo

最新推荐文章于 2024-03-03 15:53:13 发布

阅读量1k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/zhouwei_1989_/article/details/126062073

版权

本文深入探讨了Pandas库中的GroupBy功能，详细解释了分组的三个步骤：拆分、应用和整合。通过实例展示了如何使用groupby()函数进行数据分组，以及如何进行聚合（如计算平均值、总和）、转换（如计算z-score）和过滤操作。文章总结了GroupBy在数据处理中的各种应用和重要性。

摘要由CSDN通过智能技术生成

今天，我们将探讨如何在 Python 的 Pandas 库中创建 GroupBy 对象以及该对象的工作原理。我们将详细了解分组过程的每个步骤，可以将哪些方法应用于 GroupBy 对象上，以及我们可以从中提取哪些有用信息

不要再观望了，一起学起来吧

使用 Groupby 三个步骤

首先文末要知道，任何 groupby 过程都涉及以下 3 个步骤的某种组合：

根据定义的标准将原始对象分成组
对每个组应用某些函数
整合结果

让我先来大致浏览下今天用到的测试数据集

import pandas as pd
import numpy as np

pd.set_option('max_columns', None)

df = pd.read_csv('complete.csv')
df = df[['awardYear', 'category', 'prizeAmount', 'prizeAmountAdjusted', 'name', 'gender', 'birth_continent']]
df.head()

Output:

	awardYear	category	prizeAmount	prizeAmountAdjusted	name	gender	birth_continent
0	2001	Economic Sciences	10000000	12295082	A. Michael Spence	male	North America
1	1975	Physics	630000	3404179	Aage N. Bohr	male	Europe
2	2004	Chemistry	10000000	11762861	Aaron Ciechanover	male	Asia
3	1982	Chemistry	1150000	3102518	Aaron Klug	male	Europe
4	1979	Physics	800000	2988048	Abdus Salam	male	Asia

将原始对象拆分为组

在这个阶段，我们调用 pandas DataFrame.groupby() 函数。我们使用它根据预定义的标准将数据分组，沿行（默认情况下，axis=0）或列（axis=1）。换句话说，此函数将标签映射到组的名称。

例如，在我们的案例中，我们可以按奖项类别对诺贝尔奖的数据进行分组：

grouped = df.groupby('category')

也可以使用多个列来执行数据分组，传递一个列列表即可。让我们首先按奖项类别对我们的数据进行分组，然后在每个创建的组中，我们将根据获奖年份应用额外的分组：

grouped_category_year = df.groupby(['category', 'awardYear'])

现在，如果我们尝试打印刚刚创建的两个 GroupBy 对象之一，我们实际上将看不到任何组：

print(grouped)

Output:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000026083789DF0>

我们要注意的是，创建 GroupBy 对象成功与否，只检查我们是否通过了正确的映射；在我们显式地对该对象使用某些方法或提取其某些属性之前，都不会真正执行拆分-应用-组合链的任何操作

为了简要检查生成的 GroupBy 对象并检查组的拆分方式，我们可以从中提取组或索引属性。它们都返回一个字典，其中键是创建的组，值是原始 DataFrame 中每个组的实例的轴标签列表（对于组属性）或索引（对于索引属性）：

grouped.indices

Output:

{'Chemistry': array([  2,   3,   7,   9,  10,  11,  13,  14,  15,  17,  19,  39,  62,
         64,  66,  71,  75,  80,  81,  86,  92, 104, 107, 112, 129, 135,
        153, 169, 175, 178, 181, 188, 197, 199, 203, 210, 215, 223, 227,
        239, 247, 249, 258, 264, 265, 268, 272, 274, 280, 282, 284, 289,
        296, 298, 310, 311, 317, 318, 337, 341, 343, 348, 352, 357, 362,
        365, 366, 372, 374, 384, 394, 395, 396, 415, 416, 419, 434, 440,
        442, 444, 446, 448, 450, 455, 456, 459, 461, 463, 465, 469, 475,
        504, 505, 508, 518, 522, 523, 524, 539, 549, 558, 559, 563, 567,
        571, 572, 585, 591, 596, 599, 627, 630, 632, 641, 643, 644, 648,
        659, 661, 666, 667, 668, 671, 673, 679, 681, 686, 713, 715, 717,
        719, 720, 722, 723, 725, 726, 729, 732, 738, 742, 744, 746, 751,
        756, 759, 763, 766, 773, 776, 798, 810, 813, 814, 817, 827, 828,
        829, 832, 839, 848, 853, 855, 862, 866, 880, 885, 886, 888, 889,
        892, 894, 897, 902, 904, 914, 915, 920, 921, 922, 940, 941, 943,
        946, 947], dtype=int64),
 'Economic Sciences': array([  0,   5,  45,  46,  58,  90,  96, 139, 140, 145, 152, 156, 157,
        180, 187, 193, 207, 219, 231, 232, 246, 250, 269, 279, 283, 295,
        305, 324, 346, 369, 418, 422, 425, 426, 430, 432, 438, 458, 467,
        476, 485, 510, 525, 527, 537, 538, 546, 580, 594, 595, 605, 611,
        636, 637, 657, 669, 670, 678, 700, 708, 716, 724, 734, 737, 739,
        745, 747, 749, 750, 753, 758, 767, 800, 805, 854, 856, 860, 864,
        871, 882, 896, 912, 916, 924], dtype=int64),
 'Literature': array([ 21,  31,  40,  49,  52,  98, 100, 101, 102, 111, 115, 142, 149,
        159, 170, 177, 201, 202, 220, 221, 233, 235, 237, 253, 257, 259,
        275, 277, 278, 286, 312, 315, 316, 321, 326, 333, 345, 347, 350,
        355, 359, 364, 370, 373, 385, 397, 400, 403, 406, 411, 435, 439,
        441, 454, 468, 479, 480, 482, 483, 492, 501, 506, 511, 516, 556,
        569, 581, 602, 604, 606, 613, 614, 618, 631, 633, 635, 640, 652,
        653, 655, 656, 665, 675, 683, 699, 761, 765, 771, 774, 777, 779,
        780, 784, 786, 788, 796, 799, 803, 836, 840, 842, 850, 861, 867,
        868, 878, 881, 883, 910, 917, 919, 927, 928, 929, 930, 936],
       dtype=int64),
 'Peace': array([  6,  12,  16,  25,  26,  27,  34,  36,  44,  47,  48,  54,  61,
         65,  72,  78,  79,  82,  95,  99, 116, 119, 120, 126, 137, 146,
        151, 166, 167, 171, 200, 204, 205, 206, 209, 213, 225, 236, 240,
        244, 255, 260, 266, 267, 270, 287, 303, 320, 329, 356, 360, 361,
        377, 386, 387, 388, 389, 390, 391,