数据分析之python（三）

wusupersuper

已于 2024-02-24 15:45:47 修改

阅读量415

点赞数 10

文章标签：数据分析 python 数据挖掘

于 2024-02-24 15:44:44 首次发布

本文链接：https://blog.csdn.net/wusupersuper/article/details/136270181

版权

增删改字段

#增
data['age'] = '20'  #在data中新增age字段，全部设置为20

#删
del data['age']  #删除age列

#改
data.rename(column={'age':'年龄'}，inplace=True)  #将age字段名改为年龄

分组

groupby()

group_manager = user_level.groupby('level')  #分组后的数据不直接可见
group_manager.count()  #可使用count方法进行分组计数

#使用for循环看排序后数据
for name,df in group_manager:
    print(name)
    print(df)

聚合

sum()

product_gp[['消耗']].sum()  #分组后sum聚合,两个方括号是DataFrame更美观,一个方括号是Series

agg()

product_gp.agg({'消耗':['max','min'],'GMV':'min'})  #对消耗字段查看max和min，对GMV字段查看min
product_gp[['消耗','GMV']].agg(lambda x:x.max()-x.min())  #查看消耗字段和GMV字段的最大值与最小值的差值
history['最大GMV'] = product_gp[['GMV']].transform(func='max')  #分组后的最大值GMV作为字段添加到history
history['每日GMV排名'] = history.groupby('投放日期'）[['GMV']].rank(method='dense',ascending=False)  #按照投放日期分组后对GMV排序

其他常用聚合函数：

max:找到最大值。 min：找到最小值。

sum：计算总和。 mean：计算平均值。

median：计算中位数。 count：计算非缺失值数量。

std：计算标准差。 var：计算方差。

first：找到第一个非缺失值。 last：找到最后一个非缺失值。

wusupersuper

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
数据分析之python（三）

mean：计算平均值。median：计算中位数。count：计算非缺失值数量。max:找到最大值。min：找到最小值。std：计算标准差。first：找到第一个非缺失值。last：找到最后一个非缺失值。
复制链接

扫一扫