pandas groupby处理技巧

乐享极致

于 2023-02-01 16:05:10 发布

阅读量285

点赞数 1

文章标签： pandas python

本文链接：https://blog.csdn.net/weixin_44313745/article/details/128834651

版权

groupby 分组，保留组内符合条件的数据

以下是根据投保单号进行分组，保留组内质检次数最大的一条数据

import pandas as pd
df = pd.read_excel('baoxian.xlsx', dtype=str)
# 获取分组内质检次数最大的数据
df = df.groupby('投保单号').apply(lambda x :  x[x['质检次数'] == x['质检次数'].max()])
# 过滤一次性通过的保单
df = df[(df['质检次数'] == '1') & (df['质检状态'] == '已质检') & (df['质检结论'] == '通过')]

groupby分组，根据特定条件排序，保留第一条数据

pandas实现方法

def get_max_month_traget(x):
    """获取最大值的那一行"""
    df = x.sort_values(by='month_target', ascending=False)
    return df.iloc[0, :]

e11 = e1.groupby(["key_customer", "cycle_no"], as_index=False).apply(get_max_month_traget)

sql 实现方法

    select *
    from(select 
    *,ROW_NUMBER() over (partition by key_customer,cycle_no order by month_traget desc) as contract_long_rn
        from tdm_vitality_buchong_2
    )t
    where contract_long_rn = 1

cut分桶

例如根据单品销售价格分为 [“0-1”, “1-3”, “3-5”, “5-10”, “10以上”]

df["单品销售价格段"] = pd.cut(df["单品销售价格"], bins=[0, 1, 3, 5, 10, 500], labels=["0-1", "1-3", "3-5", "5-10", "10以上"])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

乐享极致

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
pandas groupby处理技巧

pandas 分组groupby，分桶cut等技巧
复制链接

扫一扫

pandas.cut+groupby函数说明

weixin_42491373的博客

11-19

4181

分布分析（cut+groupby）先用cut函数确定好分层，再用groupby函数实现分布分析。根据分析目的，将数据（定量数据）进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法。 1，功能:将数据进行离散化 pandas.cut( x , bins , right=True , labels=None , retbins=False , precision=3 , inc...

pandas数据处理进阶详解

09-18

pandas的`groupby()`函数可以实现按某一列或多列进行分组，然后对每个组进行聚合操作。`query()`或`.loc[]`可用于条件筛选，提取满足特定条件的行。对于时间序列数据，pandas有专门的日期和时间处理功能，可以进行...

1 条评论您还未登录，请先登录后发表或查看评论

浅谈pandas用groupby后对层级索引levels的处理方法

01-20

层及索引levels，刚开始学习pandas的时候没有太多的操作关于groupby，仅仅是简单的count、sum、size等等，没有更深入的利用groupby后的数据进行处理。近来数据处理的时候有遇到这类问题花了一点时间，所以这里记录以及复习一下：（以下皆是个人实践后的理解）我使用一个实例来讲解下面的问题：一张数据表中有三列（动物物种、物种品种、品种价格），选出每个物种从大到小品种的前两种，最后只需要品种和价格这两列。以上这张表是我们后面需要处理的数据表（物种品种价格） levels：层及索引（创建pandas类型时可以预先定义；使用groupby后也会生成）我们看看leve

Pandas 模块-操纵数据(10)-数据分组 .groupby()

一分耕耘一分收获

12-19

5076

大家如果用过数据库，肯定对 group by 命令很熟悉，Pandas 的 .groupby() 函数作用和数据库中的 group by 非常相似。它会将 DataFrame 数据根据一定的规则进行分组，返回给用户一个 groupby 对象，这个对象包括了不同组的相关信息。

[Pandas] groupby分组聚合操作

Hudas的博客

11-21

886

本文主要讲解常用的groupby分组聚合操作

pandas 分组排序并保留原始列

weixin_36420750的博客

01-08

3757

场景需要按照各个省份及全网进行分组，对各个指标的率值进行排序。其实这一步一般是在sql中完成的，但由于要分组排序的列较多,达30列以上，代码十分不简洁，且连接的数据库为mysql，本身没有row_number() over( paritition by··· ···)的语句，实现起来较为麻烦。而本次的原始数据每日只有5000行左右并不大，故直接用python将数据down下来进行处理。实...

pandas数据分析使用技巧

12-22

c = chipo[['item_name','quantity']].groupby(['item_name'],as_index=False).agg({'quantity':sum}) c.sort_values(['quantity'],ascending=False,inplace=True) c.head() groupby() 和 agg() 2、在item_name这一...

Pandas 数据处理,数据清洗详解

09-20

例如，可以使用`.groupby()`函数按指定列进行分组，并进行各种统计计算，如求和、平均值等。此外，通过`.merge()`和`.concat()`等函数，我们可以合并多个DataFrame，从而实现数据的整合。在实际数据分析项目中，...

pandas处理excel报表

05-28

3. **数据聚合**：`groupby()`函数允许你根据一列或多列的值对数据进行分组，然后应用聚合函数（如sum, mean, count等）。 4. **数据合并与连接**：Pandas提供了`merge()`和`concat()`函数，可以实现表格间的连接...

pandas使用cut分割区间继而用groupby对数据分组

hooyying的博客

05-01

1699

ages = np.array([1,5,10,40,36,12,2,2,67,45,90,3,6,8,23,45,12,15,17,22,4,33,28,56,58,62,77,89,100,18,20,25,30,32]) #年龄数据 quartiles=pd.cut(ages, [0,6,12,17,45,69,100], labels=[u"婴幼儿",u"儿童",u"青少年",u"青年",u"中年",u"老年"]) quartiles 输出 ['婴幼儿', '儿童', '儿童', '中年', '中

Pandas 按照两列分组后只选排序第一名

三妹的博客

03-28

2548

1、问题背景每日有多条信息，即 updateTime 栏每天有多条，现需要按照国家、日期分组，只保留最后更新的一条数据。 2、代码 import pandas as pd data = pd.read_csv('test.csv',header = 0) df = pd.DataFrame(data) df = df.sort_values('updateTime', ascen...

group by按需求保留数据——mysql

yytoo2的博客

09-04

4195

在使用group by的时候，我们有时需要根据表中某个字段（学生选课——student.`class`）进行去重，但是我们要根据另一个字段(该字段也有可能是inner join关联过来的其它表的）选择去重后留下来的数据（保留同样选课中学号——student.`num`最大的学生信息） group by在选择显示的数据的时候是默认按照选择的字段（student.`class`）顺序排列的，我们可以

【Pandas 基础知识 GroupBy分组】

我的数据分析师之路

05-08

3837

图解Pandas 分组机制

pandas中的groupby函数的分组结果怎么保存成DataFrame

juzexia的博客

12-06

4万+

在使用pandas进行数据统计分析时，作为一个小白纠结了好久如何保存groupby函数的分组结果，本打算放弃了，一个偶然的机会看前人分享的代码才发现了可以通过reset_index()函数将groupby()的分组结果转换成DataFrame对象。代码举例： total = df.groupby(['al_m6_id_notbank_allnum'])['target_cpd']

Pandas数据分析groupby函数深度总结（1）

学习爱好者fz的博客

06-22

3389

Pandas数据分析groupby函数深度总结（1）groupby分组数据加载数据数据分组按'Sales Rep'列分组显示所有分组选择一个特定的组计算每组中的行数按'Sales Rep'中的姓分组按'Sales Rep'中是否包含有“William”分组按随机序列分组按'Val'列分位数分成三组按制定的'Val'列的范围进行分组pd.GrouperGrouping by year按季度或其他频率分组通过多列进行分组 pandas包最强大的函数之一，当属groupby了。但是大多数人对groupby函数研究

pandas groupby 详解

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交