【Python】pandas读取亿级数据

leeshutao

已于 2022-07-07 22:05:33 修改

阅读量1.8k

点赞数 1

分类专栏： Python 文章标签： pandas python 机器学习

于 2022-07-01 14:29:41 首次发布

本文链接：https://blog.csdn.net/yuxeaotao/article/details/125558024

版权

Python 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

思想是分块读取，通过read_csv或read_table的两种方式（两个参数：chunksize和iterator）。

1. 指定chunksize

只要指定了这个参数，那么得到的结果就不是一个DataFrame对象，而是一个TextFileReader，它是一个生成器对象

import pandas as pd
data_iterator = pd.read_csv('data_20220701.csv', chunksize=1000)
for data_chunk in data_iterator:
    print(data_chunk)

上面的程序中指定的chunksize=1000表示1次读取1000行，那么第二次读的时候就是从1001行开始读取。

2. 指定iterator=True，并与get_chunk配合使用

iterator=True同样返回的是TextFileReader对象

import pandas as pd

f = open('./data/ows-raw.txt',encoding='utf-8')
reader = pd.read_csv(f, sep=',', iterator=True, error_bad_lines=False) #跳过报错行
loop = True
chunkSize = 1000
chunks = []
while loop:
　　try:
　　　　chunk = reader.get_chunk(chunkSize)
　　　　chunks.append(chunk)
　　except StopIteration:
　　　　loop = False
　　　　print("Iteration is stopped.")

df = pd.concat(chunks, ignore_index=True)

参考文献：

pandas读取大量数据的分块处理 - -零 - 博客园

pandas分批读取大数据集_htbeker的博客-CSDN博客_pandas读取大量数据

pandas分批读取大数据集教程 - 腾讯云开发者社区-腾讯云

pandas读取大文件筛选数据 - 知乎