Python处理大型(>1GB)文件的正确姿势

Python大型CSV文件处理



1、背景描述


Pandas在读取大型文件时,通常会遇到内存不足的问题。例如,在某次处理大于1GB的CSV文件时,出现了如下错误:

在这里插入图片描述

那么,针对这种情况,我们应该如何处理呢?本文将提供一些常见的Python大型CSV文件处理方式

2、处理方式


Pandas提供了一些方法参数可以解决这种问题,使得读取大型CSV文件变得更加容易

2.1、使用Pandas提供的API参数

可以使用usecols参数加载部分列数据,避免全列读取;使用dtype参数读取数据时转换类型,减少内存占用

import numpy as np
import pandas as pd

# 使用usecols加载部分列数据,避免全列读取;使用dtype转换类型读取数据,减少内存占用
data = pd.read_csv(file, usecols=usecols, dtype=dtype)
print(len(data))
print(data.head().to_string())

2.2、分批分块读取

可以使用chunksize参数将数据分成多个块读取,每个数据块包含chunksize行数据,以免发生内存不足的问题

# 每次读取行数为1000
# pd.read_csv()返回迭代器类型:<class 'pandas.io.parsers.readers.TextFileReader'>
for chunk in pd.read_csv(file, chunksize=1000, iterator=True):
    print(type(chunk))    # <class 'pandas.core.frame.DataFrame'>
    # 每次处理1000行数据
    print(len(chunk))
    print(chunk.head().to_string())

2.3、使用C引擎

C引擎相较于默认的Python引擎更快

start = time.perf_counter()
data = pd.read_csv(file, dtype=str, engine="c")
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start)   # 75.78744679992087

当然,也可以使用第三方库进行提速。Dask是Pandas官方推荐使用的一个用于并行和分布式计算大级别数据的Python库,Dask将数据分成多个分区并行计算,Dask DataFrame中的每个分区都是一个Pandas DataFrame,compute()会将Dask DataFrame中的所有底层分区合并为一个Pandas DataFrame。另外,Dask API遵循上游Pandas API

2.4、使用Dask库

Dask允许我们处理大于可用单台计算机RAM的数据,Dask可对TB级数据集进行分布式计算

Dask官方文档:https://docs.dask.org/en/latest/

import dask.dataframe as dd

start = time.perf_counter()
# 返回类型:<class 'dask_expr._collection.DataFrame'>
data = dd.read_csv(file, dtype=str)
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start)   # 52.351866899989545

更多关于Dask的安装和使用见:https://www.gairuo.com/p/python-dask


  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值