python在resample后用agg对多列使用自定义函数

赵孝正

已于 2023-10-16 09:00:49 修改

阅读量1.5k

点赞数

分类专栏：利用Python进行数据分析文章标签： python pandas

于 2022-07-06 21:44:02 首次发布

本文链接：https://blog.csdn.net/weixin_46713695/article/details/125648333

版权

利用Python进行数据分析专栏收录该内容

17 篇文章 0 订阅

订阅专栏

import pandas as pd


def cal_ws():
	pass
	
df = pd.read_csv('D:\\Data\\200 Stocks 1 minute Data\\data.csv')
ohlc_dict = {
    'open':'first',
    'high':'max',
    'low':'min',
    'close':'last',
    'volume': cal_ws  # 自定义函数无需引号
    }
df = df.resample('3min').agg(ohlc_dict)

使用 GroupBy.agg 带回分配，因为不是就地操作:

df = df.resample('3min').agg(ohlc_dict)

在这里插入图片描述

# 对多列进行不同的聚合操作, 并修改相应的列名
df.groupBy("Job") \
    .agg(f.sum("salary").alias("sum_salary"), 
         f.avg("salary").alias("avg_salary"), 
         f.min("salary").alias("min_salary"), 
         f.max("salary").alias("max_salary"), 
         f.mean("salary").alias("mean_salary") 
     ) \
    .show(truncate=False)

在这里插入图片描述

data_copy = pd.DataFrame(data[['水平', '竖直']])
data_copy_cal = data_copy.resample('10min', closed='right', label='right').apply(lambda x: pd.Series(
    {'ws_mean': x['水平'].mean(), 'wd_mean': col_standard.paper_method(x['水平'], x['竖直'])}))