什么是分组聚合？时间序列有什么？一篇文章带你了解~

最新推荐文章于 2022-09-21 15:43:29 发布

「已注销」

最新推荐文章于 2022-09-21 15:43:29 发布

阅读量570

点赞数

分类专栏： python 数据分析入门文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_62853513/article/details/124430385

版权

本文介绍了分组聚合的概念，特别是使用`groupby`函数的注意事项。同时深入讲解了时间序列的基础，包括时间戳、日期数据类型及其转换工具，如datetime、timedelta和pandas的Timestamp。此外，文章阐述了如何处理时间序列数据，如按日期对齐的算术运算，并提供了选取和子集构造的方法。

摘要由CSDN通过智能技术生成

什么是分组聚合？

在这里插入图片描述
groupby:(by=None,as_index=True)

by:根据什么进行分组，用于确定groupby的组

as_index:对于聚合输出,返回以组便签为索引的对象，仅对DataFrame

df1 = pd.DataFrame({
   'fruit':['apple','banana','orange','apple','banana'],
                    'color':['red','yellow','yellow','cyan','cyan'],
                   'price':[8.5,6.8,5.6,7.8,6.4]})
#查看类型
type(df1.groupby('fruit'))
pandas.core.groupby.groupby.DataFrameGroupBy  #GruopBy对象，它是一个包含组名，和数据块的2维元组序列，支持迭代
for name, group in df1.groupby('fruit'):
    print(name) #输出组名
    apple
    banana
    orange
 
    print(group) # 输出数据块
       fruit color  price
    0  apple   red    8.5
    3  apple  cyan    7.8
       fruit   color  price
    1  banana  yellow    6.8
    4  banana    cyan    6.4
       fruit   color  price
    2  orange  yellow    5.6
 
    #输出group类型  
    print(type(group))  #数据块是dataframe类型
    <class 'pandas.core.frame.DataFrame'>
    <class 'pandas.core.frame.DataFrame'>
    <class 'pandas.core.frame.DataFrame'>
 
#选择任意的数据块
dict(list(df1.groupby('fruit')))['apple']  #取出apple组的数据块
   fruit color  price
0  apple   red    8.5
3  apple  cyan    7.8

聚合

在这里插入图片描述

#Groupby对象具有上表中的聚合方法
 
#根据fruit来求price的平均值
df1['price'].groupby(df1['fruit']).mean()
fruit
apple     8.15
banana    6.60
orange    5.60
Name: price, dtype: float64     
#或者
df1.groupby('fruit')['price'].mean()
 
#as_index=False
df1.groupby('fruit',as_index=False)['price'].mean()
    fruit    price
0    apple    8.15
1    banana    6.60
2    orange    5.60
 
"""
如果我现在有个需求，计算每种水果的差值,
1.上表中的聚合函数不能满足于我们的需求，我们需要使用自定义的聚合函数
2.在分组对象中，使用我们自定义的聚合函数