Pandas 多进程处理数据，速度快了不少！

最新推荐文章于 2024-06-13 17:32:29 发布

木下瞳

最新推荐文章于 2024-06-13 17:32:29 发布

阅读量1.7k

点赞数 1

文章标签： python 数据分析 java 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjkpy_5/article/details/124013966

版权

前言

python 有自己的多进包 multiprocessing 去实现并行计算，但在 pandas 处理数据中，使用 multiprocessing 并不好使，只听见风扇转啊转，就不见运行完毕。

为了提高一点数据清洗的速度，找到一个 pandas 多进程的方法，pandarallel 库，做了一下测试。

小数据集（先试过了 1w）可能多进程还没单进程快，因为进程开启关闭也要一点时间；于是我弄了 100w 数据来测试：

利用以上数据做以下处理：

剔除 titile，comment 两列文本中的表情符号
title，comment 两列做一个分词处理，覆盖原来的列

单进程

在单进程的情况下，可以看到用时 294s，接近 5min 了。

多进程

multiprocessing 多进程写法，这种写法网上一搜一大把，代码没有错，多进程任务可以执行。

例如 run_task 函数中的任务是爬虫代码时，没有什么问题，但如果是数据清洗的代码，我测试就很久都跑不出来：

接下来换成 pandas 多进程 pandarallel 的写法就可以：

可以看到改写后时间用时 154s，2min30s，比单进程快了一倍。

关于 pandarallel 可以查看文档：

https://github.com/nalepae/pandarallel/tree/v1.5.2

对应的多进程写法函数对照表，pandas 中的 apply，applymap，map 三个函数的区别，写对应的代码：

源码获取

https://blog.csdn.net/zjkpy_5/article/details/123974556?spm=1001.2014.3001.5501

END

读者交流群已建立，找到我备注 “交流”，即可获得加入我们~

听说点 “在看” 的都变得更好看呐~

关注关注小编呗~小编给你分享爬虫，数据分析，可视化的内容噢~

扫一扫下方二维码即可关注我噢~

-END-

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Pandas 多进程处理数据，速度快了不少！

前言python 有自己的多进包 multiprocessing 去实现并行计算，但在 pandas 处理数据中，使用 multiprocessing 并不好使，只听见风扇转啊转，就不见运行完毕。为了提高一点数据清洗的速度，找到一个 pandas 多进程的方法，pandarallel 库，做了一下测试。小数据集（先试过了 1w）可能多进程还没单进程快，因为进程开启关闭也要...
复制链接

扫一扫

木下瞳 CSDN认证博客专家 CSDN认证企业博客

码龄6年

298: 原创

3万+: 周排名

7638: 总排名

73万+: 访问

: 等级

7812: 积分

414: 粉丝

629: 获赞

140: 评论

2325: 收藏

私信

关注

热门文章

分类专栏

最新评论

langchain 的 agent + tool 使用
木下瞳: 可以用 create_structured_chat_agent 去构建agent，或者对 opanai 做了兼容的大模型可以使用 create_openai_tools_agent 构建，这两个是正常能识别使用多个工具的。 langchain 0.1.x 的 react 相关 agent 总感觉它有问题，这应该是内部实现的问题，调用工具有问题。
langchain 的 agent + tool 使用
与热: 我用langchain构建的agent选用的是chat-conversational-react-description。我发现它只执行流程，但是调用工具后也不与工具的输出结果进行交互。这是怎么回事呢
spss 时间序列分析
2301_81069467: 同问只有年月日怎么办
pyecharts 插入到 ppt
MWH13140928: 博主一直显示脚本错误怎么办，加了脚本错误解决的代码
selenium 定位下拉选择框元素
杰森.波恩: 简单粗暴，大佬厉害

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。