openpyxl处理50万行Excel数据,出现memory error问题,请教大神代码怎么修改

在尝试使用openpyxl处理包含50万行的Excel数据时,遇到memory error错误。代码中读取并检查每行特定单元格的值,当满足条件时写入新值。为了解决内存问题,可以考虑分块处理数据或使用其他内存效率更高的库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代码如下:
import openpyxl as ops
import gc

wb02=ops.load_workbook(“G:/Python/Project/data.xlsx”)
ws01=wb02.worksheets[0]
rows_num=ws01.max_row
cols_num=ws01.max_column
print(rows_num,cols_num)
for i in range (rows_num):
if i==0:
print("")
else:
b=ws01.cell(i,7).value
c=ws01.cell(i,18).value
if “Asia” in b and c is None and “Video” in c:
ws01.cell(i,23,“1”)
wb02.save(“G:/Python/Project/test.xls”)
del wb02,ws01
gc.collect()

报错如下:
Traceback (most recent call last):
File “E:/Program Files/Python/123.py”, line 19, in
wb02.save(“G:/Python/Project/Amcrest.xls”)
File “C:\Users\Raytine\AppData\Local\Programs\Python\Python38\lib\site-packages\openpyxl\workbook\workbook.py”, line 392, in save
save_workbook(self, filename)
File “C:\Users\Raytine\AppData\Local\Programs\Python\Python38\lib\site-

处理大型数据集时出现MemoryError是一个常见的问题,特别是在内存资源有限的情况下。以下是一些解决方法: 1. **分块处理数据**: 将数据集分成较小的块,逐块读取和处理数据,而不是一次性将整个数据集加载到内存中。 2. **使用生成器**: 使用生成器(generators)来逐行或逐块生成数据,而不是一次性生成所有数据。 3. **优化数据结构**: 选择更节省内存的数据结构。例如,使用NumPy的数组而不是Python的列表,因为NumPy数组在内存使用上更高效。 4. **数据压缩**: 对数据进行压缩存储和处理。例如,使用gzip或bz2等压缩格式存储数据,并在读取时进行解压缩。 5. **使用内存映射文件**: 使用`mmap`模块将文件映射到内存中,这样可以按需读取文件内容,而不是一次性将整个文件加载到内存中。 6. **增加虚拟内存**: 增加系统的虚拟内存(交换空间),虽然这不能替代物理内存,但在某些情况下可以缓解内存不足的问题。 7. **使用内存分析工具**: 使用内存分析工具(如`memory_profiler`)来查找代码中内存泄漏或高内存使用的部分,并进行优化。 示例代码(使用分块处理数据): ```python import pandas as pd chunk_size = 100000 # 定义每个数据块的大小 for chunk in pd.read_csv('large_dataset.csv', chunksize=chunk_size): # 对每个数据块进行处理 process(chunk) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值