python提高pandas处理CSV效率的方法

最新推荐文章于 2025-09-04 11:18:53 发布

yangspoor

最新推荐文章于 2025-09-04 11:18:53 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.csdn.net/yangspoor/article/details/109023022

在处理1600万行、1.6GB大小的CSV数据时，使用pandas DataFrame起初耗时5小时。通过分析，发现直接设置整列值而非逐行操作能显著提升效率。改用索引at方法后，处理时间降至1-2分钟。

项目场景：

对从数据库导出的原始CSV数据进行更新，使用Python完成

问题描述：

网上建议使用pandas包的DataFrame处理方便高效，比csv包好。但执行时非常慢，1600万行记录（1.6GB），跑了5小时都没结束（4列置空，1列Hash）

# 需要hash的示例代码
for field in field_list:
    for i in range(0, len(csv_df.index)):
        if not pd.isnull(csv_df[field][i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yangspoor

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用pandas进行csv文件的读取和写入

huiling_tiantian的博客

12-05

7331

pandas读写csv

python写入csv文件追加数据-利用pandas向一个csv文件追加写入数据的实现示例

weixin_39664431的博客

11-11

4634

我们越来越多的使用pandas进行数据处理，有时需要向一个已经存在的csv文件写入数据，传统的方法之前我也有些过，向txt，excel文件写入数据，传送门：Python将二维列表（list）的数据输出（TXT，Excel）pandas to_csv()只能在新文件写数据？当然不是！pandas to_csv() 是可以向已经存在的具有相同结构的csv文件增加dataframe数据。df.to_cs...

1 条评论您还未登录，请先登录后发表或查看评论

分页查询

daxuecai的博客

10-15

158

分页查询 @[TOC](控制层) PageInfo page = relationInfoService.getFamilyPersonForFPSelect(pageCondition); PageInfo<HrmsPersonInfo> page = relationInfoService.getPersonForFPSelect(pageCondition); PageInfo类具体实现一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为

Python中使用pandas库处理csv文件操作

热门推荐

最简单的方法，解决最实际的问题。

07-09

2万+

pandas是一个第三方数据分析库，其集成了大量的数据分析工具，可以方便的处理和分析各类数据。

Python使用pandas处理CSV文件的实例讲解

12-23

Python中有许多方便的库可以用来进行数据处理，尤其是Numpy和Pandas,再搭配matplot画图专用模块，功能十分强大。 CSV（Comma-Separated Values）格式的文件是指以纯文本形式存储的表格数据，这意味着不能简单的使用...

python:pandas合并csv文件的方法(图书数据集成)

12-25

pandas读取csv文件，并进行csv文件合并处理： # -*- coding:utf-8 -*- import csv as csv import numpy as np # ------------- # csv读取表格数据 # ------------- ''' csv_file_object = csv.reader(c

python pandas获取csv指定行列的操作方法

09-19

### Python Pandas 获取 CSV 指定行、列的操作方法详解 #### 一、引言在数据分析领域，Pandas 是一个强大且广泛使用的库，它提供了高效的数据结构和数据分析工具。本文将详细介绍如何使用 Pandas 库来处理 CSV ...

python 正则表达式特别慢怎么解决

郑王铭

02-27

5512

python正则表达式特别慢的话主要是正则表达式太长了脚本匹配需要太长时间把要取的信息分为几段取就行运行速度一下子就提升了

python3关于写入csv档效率问题

qq_42409668的博客

09-24

3719

前几天做的一个处理csv档的程序放在了服务器上跑，结果发现时间很久，处理一个113M差不多70W行的csv档需要65s左右，然后对其中的各部分操作分别计时，发现大部分时间都是花费存取csv档上足足要53s左右，而处理一列数据也仅需3s。然后今天就开始找提高存储效率的方法了！首先说结论，使用csv模块的writerows方法最后是成功的提高了效率，不过还是很想通过pickle方法来实现，其中乱码...

再见 CSV，速度提升 150 倍！

Python数据科学

09-10

1829

大家好，我是东哥。前几天有个粉丝留言，说pandas的100个骚操作系列为什么只有21个啊？这里和大家说一下，这个系列「pandas100个骚操作」还在持续更新中。由于平时工作较忙，更新稍慢，不过还是在一直更新的。我的原计划是输出100个，目前来看可能最终不一定会到100个，但每个都是超实用且平时经常会遇到的问题。pandas的用法太多了，如果不熟练，平时是需要经常网上查找的，这个系列可以帮助大家快速回忆用法。或者万一平时遇到问题查不到无法解决，也可以过来看下，毕竟某度上是查不到微信文章的。该系列预

Pandas处理sqlite数据库CSV文件EXCEL文件的速度对比

KevinLiu's Notes

10-16

2191

近期在对大数据文件的处理时，发现pandas处理不同文件格式的处理速度差距很大，可以达到几十数百倍的差距。结果可见，针对于该数据集和要查询的数据，csv数据加载处理时间是db数据加载处理处理时间的15倍左右，excel数据加载处理是db数据加载处理的733倍。

Python 读写csv文件总结（pandas、csv库）

u011412768的博客

11-15

1584

1、用pandas读写csv文件，参考：https://blog.csdn.net/u011412768/article/details/109522349 2、用Python自带的csv库读写（1）按行写csv文件用csv按行写数据时，每一行是按照一个list写入的，所以将每一行的数据做成一个list就可以输出了。值得注意的是，csv逐行写入数据时，默认的是行之间会空一行，可以通过newline=""来解决这个问题。 import csv ...

提升效率，这十个Pandas技巧必不可少！

Python大本营的博客

03-21

756

译者 | 风车云马责编 | Jane出品 | Python大本营（ID：pythonnews）【导语】Pandas 是一个被广泛使用，用于处理结构化数据的 Python ...

python 使用pandas 读取较大csv文件的加速技巧

SZ-crystal

05-23

1万+

问题背景基于python将较大的文本文件读取为dataframe时（文本文件可能是csv或者xlsx类型）。直接用pandas对整个文件进行读取的话，会比较耗时。这里提供一个简单的加速方案：分批读取。实现方案需要首先将文件转为可以分批读取的数据类型:csv(’,‘分隔)或者tsv(’\t’分隔)。然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取（此参数用于设定每批读入多少行数据）。一般设置为一个稍大的整数即可明显提速。封装成以下的函数，可以直接调用： def

python导出大量数据库的数据太慢的问题

weixin_52279913的博客

06-02

1395

python导出大量数据到csv太慢问题解决最近项目要求，写了一个定时导出到数据库的数据到csv的脚本（大概每天一千五百万条左右）。我最开始使用了自带的csv，分批次每次导出一千条，刚开始导出很顺利也很快，每次只需要零点几秒，随着数据处理的越来越多导出的速度就越来越慢，到最后导出一千条需要十几分钟甚至半个小时。然后我换成了pandas，问题并没有得到解决，也百度了很多发现python并没有很好的解决办法，最后转念一想既然python不行那我就用mysql自带的导出语句啊。（其实这个解决办法有的人可能会

python读取大智慧数据_大智慧数据读取接口大智慧股票本地数据读取接口

weixin_39883079的博客

11-25

1799

大智慧数据读取接口大智慧股票本地数据读取接口时间：2020-7-28 1:42:29 点击：核心提示：所属分类：C资源描述：组件方法和属性说明：（1）方法GetData语法：public string[,] GetData(string dataType, string code,int iRecor...所属分类：C资源描述：组件方法和属性说明：（1）方法GetData语法：public st...