将33G数据集转为3G，这个案例值得学习

啥都生

已于 2023-03-11 15:13:19 修改

阅读量194

点赞数

分类专栏：硬核干货文章标签：学习 pandas 数据分析

于 2023-03-11 15:12:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/129334725

版权

硬核干货专栏收录该内容

30 篇文章 3 订阅

订阅专栏

文章介绍了在处理大规模数据集时，如何避免系统卡顿崩溃。通过使用pandas的chunksize参数分块读取CSV文件，避免一次性加载全部数据。在每个块中，将float64类型转换为float16以减少内存使用，然后拼接和优化所有块，最终保存为轻量级的feather格式文件，实现高效的数据存储和处理。

摘要由CSDN通过智能技术生成

加粗样式几年前在StackOverflow上看到的一个问题，现在找不到了，当时记录了一点在草稿箱中

是个很好的学习案例，对于需要注意的地方也会进行提示

当加载数据集变大时，我们的系统可能会卡顿崩掉，这个案例是将33G数据压缩到了3.7G

依赖库

import pandas as pd
import gc
import glob
import os

pandas是常用的数据分析库之一，用于数据处理等

垃圾收集器 (GC) ，在处理大量数据时从内存中释放空间，从内存中删除不需要的东西

glob 库使用系统中的模式提取特定文件

os 库与操作系统交互并处理文件及其路径

分块（chunk）

chunk_size = 500000
num = 1
for chunk in pd.read_csv('test_data.csv', chunksize = chunk_size):
    chunk.to_csv('chunk' + str(num) + '.csv', index = False)
    gc.collect()
    num += 1

这里不能像处理小规模数据那样直接加载数据文件，会导致崩溃

可以使用“chunksize”拆分文件，此处为每个块选择50万行，可根据每个人任务&机器性能来定

这里‘gc.collect()’的使用非常巧妙且至关重要，可以避免内存错误

运行后得到若干个chunk
在这里插入图片描述

然后查看是否可以读取chunk并检查信息

在这里插入图片描述
从打印输出可以看出，190列中有185列是float64类型，这也是pandas 总是将 float 数据加载为 float64 的常见问题之一

通过优化该部分，可以减少数据集中的一部分内存

所以将其转换为‘float16’或‘float32’以最小化内存使用，这里将其转换为“float16”

敲黑板了，请搞清楚你数据集这样转换是否会丢失数据精度！！！
在这里插入图片描述
可以看到转换为“float16”后，内存使用量大大减少

优化和拼接chunk文件

之前读取并优化了单个chunk文件，现在将拼接所有 23 个chunk文件并优化内存

在这里插入图片描述

使用‘glob’和‘os’ 方法访问到相应的文件，即（“*.csv”）

然后通过迭代读取所有文件，在迭代过程中将其从‘float64’转换为‘float16’并保存在列表中

紧接着将所有文件拼接保存在一个新的dataframe中

在这里插入图片描述

在dataframe中可以快速进行数据处理

将dataframe转换为文件格式

优化后的dataframe可以转换成任何文件格式

推荐feather，因为较为轻量，如下所示

在这里插入图片描述

读取优化后的文件

再次读取优化后的feather格式文件就不会出现任何内存错误

可以正常进行数据处理操作

在这里插入图片描述
更多干货尽在公众号【啥都会一点的研究生】

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

啥都生 CSDN认证博客专家 CSDN认证企业博客

码龄7年

人工智能领域新星创作者

190: 原创

2165: 周排名

6602: 总排名

46万+: 访问

: 等级

4050: 积分

1万+: 粉丝

1832: 获赞

333: 评论

5425: 收藏

私信

关注

热门文章

分类专栏

最新评论

保姆级使用PyTorch训练与评估自己的ResNet网络教程
m0_58115303: 你好，你是怎么解决的呀？
保姆级使用PyTorch训练与评估自己的MixMIM网络教程
Lijiatu_pro: 放出的这个mixmim（mixmae）没有预训练部分，博主有吗？
保姆级使用PyTorch训练与评估自己的ResNet网络教程
m0_58115303: 请问，您已经成功运行了吗？为什么我在配环境的时候输入python tools/single_test.py datas/cat-dog.png models/mobilenet/mobilenet_v3_small.py --classes-map datas/imageNet1kAnnotation.txt会报错“ File "tools/single_test.py", line 42, in <module> main() File "tools/single_test.py", line 33, in main model = init_model(model, data_cfg, device=device, mode='eval') File "F:\Set up warehouse\utils\inference.py", line 27, in init_model load_checkpoint(model,data_cfg.get('test').get('ckpt'),device,False) File "F:\Set up warehouse\utils\checkpoint.py", line 216, in load_checkpoint raise FileNotFoundError(f'{filename} can not be found.') FileNotFoundError: datas/mobilenet_v3_small-8427ecf0.pth can not be found.”
保姆级使用PyTorch训练与评估自己的ResNet网络教程
m0_58115303: 您好，您使用的是python3.6的吗？和您说的那几个opencv的版本适配吗？ opencv_python==3.4.1.15 opencv_contrib_python==3.4.1.15 opencv-python-headless==4.1.1.26
保姆级使用PyTorch训练与评估自己的ResNet网络教程
m0_58115303: 请问博主，我输入pip install -r requirements.txt的时候报错： “ERROR: Could not build wheels for opencv-python, opencv-contrib-python, opencv-python-headless which use PEP 517 and cannot be installed directly”，这个几个版本应该用什么版本？我是下载的python=3.6.13的版本，下载的是opencv_python==3.4.1.15 opencv_contrib_python==3.4.1.15 opencv-python-headless==4.1.1.26

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

啥都生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。