chunksize 为每次读取的数据量,可以减少内存的使用。一般笔记本的内存不可能无限大。
chunk可以处理进行分块处理数据。
进行数据统计和数据筛选的的话用这种方式比较方便。
import pandas as pd
# 读取文件
filename = 'data.csv'
chunksize = 1000 # 每个块的行数
for chunk in pd.read_csv(filename, chunksize=chunksize):
# 对于每个块,进行一些处理
# 例如:计算块内的统计量,进行数据清洗等
print(chunk.shape)