Python处理大型(＞1GB)文件的正确姿势

对许

已于 2024-03-18 20:18:52 修改

阅读量716

点赞数 8

分类专栏： # Python 文章标签： python

于 2024-03-15 17:04:23 首次发布

本文链接：https://blog.csdn.net/weixin_55629186/article/details/136742720

版权

Python 专栏收录该内容

118 篇文章 2 订阅

订阅专栏

Python大型CSV文件处理

- 1、背景描述
- 2、处理方式

1、背景描述

Pandas在读取大型文件时，通常会遇到内存不足的问题。例如，在某次处理大于1GB的CSV文件时，出现了如下错误：

在这里插入图片描述

那么，针对这种情况，我们应该如何处理呢？本文将提供一些常见的Python大型CSV文件处理方式

2、处理方式

Pandas提供了一些方法参数可以解决这种问题，使得读取大型CSV文件变得更加容易

2.1、使用Pandas提供的API参数

可以使用usecols参数加载部分列数据，避免全列读取；使用dtype参数读取数据时转换类型，减少内存占用

import numpy as np
import pandas as pd

# 使用usecols加载部分列数据，避免全列读取；使用dtype转换类型读取数据，减少内存占用
data = pd.read_csv(file, usecols=usecols, dtype=dtype)
print(len(data))
print(data.head().to_string())

2.2、分批分块读取

可以使用chunksize参数将数据分成多个块读取，每个数据块包含chunksize行数据，以免发生内存不足的问题

# 每次读取行数为1000
# pd.read_csv()返回迭代器类型：<class 'pandas.io.parsers.readers.TextFileReader'>
for chunk in pd.read_csv(file, chunksize=1000, iterator=True):
    print(type(chunk))    # <class 'pandas.core.frame.DataFrame'>
    # 每次处理1000行数据
    print(len(chunk))
    print(chunk.head().to_string())

2.3、使用C引擎

C引擎相较于默认的Python引擎更快

start = time.perf_counter()
data = pd.read_csv(file, dtype=str, engine="c")
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start)   # 75.78744679992087

当然，也可以使用第三方库进行提速。Dask是Pandas官方推荐使用的一个用于并行和分布式计算大级别数据的Python库，Dask将数据分成多个分区并行计算，Dask DataFrame中的每个分区都是一个Pandas DataFrame，compute()会将Dask DataFrame中的所有底层分区合并为一个Pandas DataFrame。另外，Dask API遵循上游Pandas API

2.4、使用Dask库

Dask允许我们处理大于可用单台计算机RAM的数据，Dask可对TB级数据集进行分布式计算

Dask官方文档：https://docs.dask.org/en/latest/

import dask.dataframe as dd

start = time.perf_counter()
# 返回类型：<class 'dask_expr._collection.DataFrame'>
data = dd.read_csv(file, dtype=str)
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start)   # 52.351866899989545

更多关于Dask的安装和使用见：https://www.gairuo.com/p/python-dask

对许

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python处理大型(＞1GB)文件的正确姿势

Dask是Pandas官方推荐使用的一个用于并行和分布式计算大级别数据的Python库，Dask将数据分成多个分区并行计算，Dask DataFrame中的每个分区都是一个Pandas DataFrame，会将Dask DataFrame中的所有底层分区合并为一个Pandas DataFrame。Dask允许我们处理大于可用单台计算机RAM的数据，Dask可对TB级数据集进行分布式计算。参数将数据分成多个块读取，每个数据块包含chunksize行数据，以免发生内存不足的问题。
复制链接

扫一扫