groupby后的apply的用法细节——特征工程

在进行特征工程时,我们经常对表格类数据进行.groupby操作,但其实我对.groupby后的数据到底是长什么样的了解不全面,下面以几个例子。深入理解一下。

上图中,我们以card_id为分组,来一个个处理特征,现在处理的是city_id特征。

一般我们通过遍历就能知道各组里的具体内容。但现在来看我们对其存储形式的理解还差一点。

具体如下:

 

按照先前的理解,在进行.apply(list)后,应该返回上图的结果:实际如下:

 可以看到,一组里面的city_id被分到一个列表里,是以card_id为单位进行整体的list。

结论:我们知道apply方法作用于df时是按照行,一行行作用的。

所以可以理解为按card_id进行groupby后的单列特征city_id是card_id的一行,是他们的键。而所有的city_id是他们的值,存储为['76','69'.....],所以list他们时不会变成[‘7’,‘6’ ,‘6‘,‘9’......]

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值