参考文章:
这里怕原始文章删除,把其中的几句话放过来作为notes:
Category这个数据类型,它的作用很强大。虽然没有经常性的在内存中运行上G的数据,但是也总会遇到执行几行代码会等待很久的情况。使用Category数据的一个好处就是:可以很好的节省在时间和空间的消耗。
可以使用sys.getsizeof来显示内存占用的情况,数字代表字节数。
还有另一种计算内容占用的方法:memory_usage(),后面会使用。
内存占用区别:Categorical所占用的内存与Categorical分类的数量和数据的长度成正比,相反,object所占用的内存则是一个常数乘以数据的长度。
除了占用内存节省外,另一个额外的好处是计算效率有了很大的提升。因为对于Category类型的Series,str字符的操作发生在.cat.categories的非重复值上,而并非原Series上的所有元素上。也就是说对于每个非重复值都只做一次操作,然后再向与非重复值同类的值映射过去。
对于开始的整数类型映射,可以先通过reorder_categories进行重新排序,然后再使用cat.codes来实现对整数的映射,来达到同样的效果。
data[item].cat.reorder_categories(mapper).cat.codes