dataframe groupby 自定义聚合函数

一、背景

业务需求,需要对数据聚合之后,按照分组对组内的结果按照自己定义的计算方法聚合

二、代码实现

 

参考代码如下:

# 读取源文件
df1 = pd.read_excel('./test_3.xlsx')
df1.head()

# 自定义聚合函数
def get_total_marks(list1: list):
    """
    自定义聚合函数:计算规则如下
    计算列表的结果: = 最大 + 1/2 * 第二大  + 1/4 * 第三大 + ... + (1/2**(n-1) * 第n大 
    """
    res = 0
    list1.sort(reverse=True)
    for index, i in enumerate(list1):
        res += i * 2**(-index)
    return res

# 使用dataframe聚合

df2 = df1.sort_values(["site", "code", "stock_price"],ascending=[True, True, False])
df3 = df2.drop_duplicates(["code", "site"])
df4 = df3.groupby(["code"]).apply(lambda x: get_total_marks([i for i in x["stock_price"]]))
df5 = df4.reset_index()
df5.columns = ["code", "total_mark"]
df5

groupby之后可以使用apply()方法,此方法支持传入一个函数,普通的sum(), max(), mean()不能满足我们需求的时候,可以考虑自定义函数来完成聚合。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值