pandas 处理不连续数字的分组问题

 构造数据:

np.random.seed(1)
df = pd.DataFrame({'编号':[1,2,3,4,5,7,8,9,11,12,14,15,16,19],
                  '金额':np.random.randint(40,200,size=(14))})

 

 

方法一:pd.cut()

(    
    df
    .assign(编号=lambda d:pd.cut(d['编号'],[0,5,9,12,14,19],
                               labels=['1-5','7-9','11-12','14-16','19']))
    .groupby('编号')
    .sum()
)

方法二:增加辅助列

(
    df
    .assign(flag=lambda d:np.arange(1,len(d)+1)-d['编号'])
    .groupby('flag').agg({'编号':lambda s:'%d-%d'%(min(s),max(s)),'金额':'sum'})
    .set_index('编号')
)

方法三:replace()

(
    df
    .replace([[i for i in range(1,6)],
              [i for i in range(7,10)],
              [i for i in range(11,13)],
              [i for i in range(14,17)],
              [i for i in range(19,20)]
               ],
             value=['1-5','7-9','11-12','14-16','19'])
    .groupby('编号')
    .sum()
)

三种方法的结果一样,只是排序有些不同: 

深入浅出pandas,很棒的书!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值