当我们使用Pandas读取小量数据进行处理时,一般性能不是问题。但有时我们需要处理较大数据量,比如几个G的数据,数据量达到千万甚至上亿级别,这时我们在读数据时经常会出现因内存不足而导致程序崩溃的问题。
本文提出一些可行方案,利用Pandas实现千万级数据的处理。首先我们来看一下用于演示的数据集:
df = pd.read_csv('JL_4G.csv')
df.head()
使用info函数,并传入memory_usage='deep'参数可以查看数据的特征及占用的内存数量。
df.info(memory_usage='deep')