已解决Python读取20GB超大文件内存溢出报错MemoryError

已解决Python读取20GB超大文件内存溢出报错MemoryError










报错问题



日常数据分析工作中,难免碰到数据量特别大的情况,动不动就2、3千万行,如果直接读进 Python 内存中,且不说内存够不够,读取的时间和后续的处理操作都很费劲。最近处理文本文档时(文件约20GB大小),出现memoryError错误和文件读取太慢的问题,报错代码如下:

with open(file, 'r', encoding='utf-8') as f:

        json_list = f.readlines()


报错信息如下

MemoryError



报错翻译



报错翻译如下:内存错误




报错原因



报错原因

这种方式是将文件里面所有内容按行读取到一个大列表中,对于小文件,这种方式其实挺方便,但对于大文件就会出现内存可能不足的情况,报 MemoryError 错误,或者消耗掉很客观的内存资源。小伙伴按下面的方法解决任选其一即可!!!





解决方法1



pandas.read_csv 参数 chunksize 通过指定一个分块大小(每次读取多少行)来读取大数据文件,可避免一次性读取内存不足,返回的是一个可迭代对象 TextFileReader


import pandas as pd

reader = pd.read_csv('E:\Python学习\新建文件夹\新建文本文档.txt', sep=',', chunksize=10)

for chunk in reader:
    df = chunk
    print(type(df), df.shape)



解决方法2(推荐使用)


EmEditor介绍: 简单好用的文本编辑器,支持多种配置,自定义颜色、字体、工具栏、快捷键设置,可以调整行距,避免中文排列过于紧密,具有选择文本列块的功能(按ALT键拖动鼠标),并允许无限撤消、重做,总之功能多多,使用方便,是替代记事本的最佳编辑器。我使用的EmEditor的分割功能,将20G的json文件按行分割为10个小文件。


EmEditor下载地址https://zh-cn.emeditor.com/#download

(1)安装完成后,找到工具 》 点击分割文件:


在这里插入图片描述

(2)指定分割的行数(以多少行分割成一个新文件),然后点击下一页:


在这里插入图片描述


(3)默认即可接着一直点击下一页:
在这里插入图片描述


(4)分割完成,点击完成:
在这里插入图片描述


5)找到对应的文件,把json文件分割为10小份(这个是写文章之前分割的):


在这里插入图片描述

以上是此问题报错原因的解决方法,欢迎评论区留言讨论是否能解决,如果有用欢迎点赞收藏文章谢谢支持,博主才有动力持续记录遇到的问题!!!

千人全栈VIP答疑群联系博主帮忙解决报错

由于博主时间精力有限,每天私信人数太多,没办法每个粉丝都及时回复,所以优先回复VIP粉丝,可以通过订阅限时9.9付费专栏《100天精通Python从入门到就业》进入千人全栈VIP答疑群,获得优先解答机会(代码指导、远程服务),白嫖80G学习资料大礼包,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html

  • 优点作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会),此专栏文章是专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试!

  • 专栏福利简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等

  • 注意:如果希望得到及时回复,和大佬们交流学习,订阅专栏后私信博主进千人VIP答疑群在这里插入图片描述
    在这里插入图片描述

免费资料获取,更多粉丝福利,关注下方公众号获取

在这里插入图片描述

  • 7
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
### 回答1: Python 报错 MemoryError 是指程序在运行时尝试分配的内存超过了系统可用的内存大小,导致内存不足的错误。这种错误通常发生在处理大量数据或者使用大型数据结构时,可以通过优化算法或者增加系统内存来解决。 ### 回答2: Python编程语言是一种高级语言,它的特点是语法简洁、易读易写,并能够进行高效的内存管理。然而,即便如此,有时候在使用Python进行程序开发中,也会出现一些问题。比如,当我们的程序需要处理大量的数据时,如果内存不够用,就会报“MemoryError”错误。 那么,为什么Python会报“MemoryError”呢?一般来说,这个错误是因为我们的程序尝试分配的内存超出了系统的可用内存所导致的。当程序需要使用内存时,系统会从堆中分配一定大小的内存空间来存储数据,如果没有足够的内存可供使用,那么就会出现“MemoryError”错误。 为了解决这个问题,我们需要采取一些措施来减少内存的使用,或者通过增加系统的可用内存来解决问题。具体的措施包括: 1. 对于大型数据集,可以尝试使用生成器来读取和处理数据,而不是一次性将整个数据集加载到内存中。 2. 避免在python中操作大型数组或者列表。如果必须使用大型数据集,请考虑使用Python的NumPy或Pandas库进行高效的数组和数据操作。 3. 使用垃圾回收机制来回收内存。Python自带了垃圾回收机制,可以自动回收不再使用的内存空间。 4. 对于一些计算密集的任务,可以考虑使用Cython或者PyPy等编译器来加速Python程序的运行速度,并减少内存使用。同时可以使用多进程和多线程来提高程序的性能。 总之,Python报错MemoryError”是因为程序运行需要的内存太大,而系统的可用内存不足。通过一些措施,如使用生成器、避免大量操作大型数组、使用垃圾回收机制、使用编译器提高程序运行速度等,可以减少内存的使用,从而避免这个问题的出现。 ### 回答3: Python中的MemoryError错误通常是由于程序尝试使用系统内存资源超出了其限制而引起的。MemoryError错误表明,Python程序需要为某个操作分配的内存空间超出了Python解释器所能提供的内存限制。 这种错误通常发生的原因有以下几种: 1. 程序过于复杂或处理数据量过大,会导致Python解释器无法为其分配足够的内存空间。 2. 程序可能会构造非常大的数据结构,如列表、字典和Numpy数组等。 3. 代码中存在内存泄漏的情况,例如程序使用了大量闭包或循环引用等。 解决MemoryError错误需要考虑以下几点: 1. 优化程序结构与算法,减少内存使用。 2. 使用生成器和迭代器来代替列表和其他容器类型,以减少内存使用和提高程序执行效率。 3. 使用分布式计算框架,将任务分解成多个子任务并行执行,以减少内存的使用和提高程序运行效率。 4. 使用第三方库来实现内存管理,如PyPy、Memory Profiler和Pympler等。 5. 避免使用全局变量和循环引用等可能导致内存泄漏的代码,确保内存的正确释放。 总之,MemoryError错误通常是由于程序需要过多的内存空间而引起的,解决方法包括优化程序结构与算法,使用生成器和迭代器来代替列表等容器类型,使用分布式计算框架来减少内存使用和提高程序效率,使用第三方库来实现内存管理等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

袁袁袁袁满

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值