【Python】data[item].astype(‘category’).cat.codes类别型变量映射到整数型

参考文章:

99%的人都不知道的pandas骚操作(一) - 知乎

这里怕原始文章删除,把其中的几句话放过来作为notes:

Category这个数据类型,它的作用很强大。虽然没有经常性的在内存中运行上G的数据,但是也总会遇到执行几行代码会等待很久的情况。使用Category数据的一个好处就是:可以很好的节省在时间和空间的消耗。

可以使用sys.getsizeof来显示内存占用的情况,数字代表字节数。

还有另一种计算内容占用的方法:memory_usage(),后面会使用。

内存占用区别:Categorical所占用的内存与Categorical分类的数量和数据的长度成正比,相反,object所占用的内存则是一个常数乘以数据的长度。

除了占用内存节省外,另一个额外的好处是计算效率有了很大的提升。因为对于Category类型的Series,str字符的操作发生在.cat.categories的非重复值上,而并非原Series上的所有元素上。也就是说对于每个非重复值都只做一次操作,然后再向与非重复值同类的值映射过去。

对于开始的整数类型映射,可以先通过reorder_categories进行重新排序,然后再使用cat.codes来实现对整数的映射,来达到同样的效果。

data[item].cat.reorder_categories(mapper).cat.codes

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值