pandas的apply方法提升数据处理效率

python_e

已于 2023-11-30 16:59:01 修改

阅读量176

点赞数

文章标签： pandas

于 2023-10-10 11:54:43 首次发布

本文链接：https://blog.csdn.net/weixin_45837072/article/details/133743818

版权

只是用for循环来遍历数据框的每一行数据，在数据量有100w的情况下，需要一天的时间才能处理完数据，此处还以用线程池的方式来提高数据处理速度，但是效果还是不理想，速度依旧很慢

 with ThreadPoolExecutor(max_workers=20) as pool:
        for i in range(len(df)):
             pool.submit(ev_info,i)

但是利用apply方法可以高效的提升的数据处理速度

def cl(c,x,y):
    name = c[x]
    ab = eval(c[y]).get(name)
    print(ab)
    return ab

上面c参数指当前处理的数据框，经过测试，利用apply方法可以将原本需要9h的数据处理工作，提升至10分钟内完成，简直太香了~

start = time.time()

    df['g_i'] = df.head(1000).apply(cl, args=('legalPerson','manger_info'), axis=1)

    print('进程结束')
    print('columns:', df.columns)
    print(df.loc[:, ['legalPerson','g_i']])
    print(time.time()-start)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

python_e

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pandas的apply方法提升数据处理效率

数据处理速度的提升小技巧
复制链接

扫一扫

学习pandas apply方法，看这一篇就够了，你该这么学，No.10

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

05-29

1万+

最近好忙啊，好忙啊，忙的写不动博客了时间过得飞快一晃，一周就过去了本着不进步就倒退的性格我成功的在技术上面划水了一周今天要学习的还是groupby的高级进阶说是高级，其实就是比初级复杂了一些有点绕，然后不容易明白就成为高级了其实对于pandas来说应该还是基础部分我们今天要学习的就是自定义更丰富的分组运算 apply 方法 apply方法的价值对于有些数据类型来说是...

Pandas性能优化:进阶篇

JanLEE

10-24

1055

在这里介绍一些更高级的pandas优化方法。

1 条评论您还未登录，请先登录后发表或查看评论

10.Pandas优化

m0_63953077的博客

02-14

208

Pandas优化

pandas性能提升之避免SettingWithCopy

S_o_l_o_n的博客

05-20

430

pandas中，当你用了如下赋值方式时，往往会抛出一个warning，SettingWithCopy warning。这个warning的原因在于，如果你用了如下赋值，则脚本可能会在内存里先创建一个df['a']的copy，然后再进行索引后的赋值，赋值后再将新的值赋给原df对象，这样就涉及到了两次链式赋值。至于为什么是可能会，而不是一定会，是因为这个copy的创建会由这个对象在内存位...

Pandas 数据处理,数据清洗详解

09-20

在数据分析领域，Pandas是一个非常重要的...熟练掌握Pandas的数据处理和清洗技术，能大大提高数据预处理的效率，为后续的建模和分析打下坚实的基础。通过不断实践和学习，我们可以更好地利用Pandas解决复杂的数据问题。

对pandas中apply函数的用法详解

09-20

在数据分析领域，Pandas库是不可或缺的工具，它提供了丰富的数据处理功能，其中`apply`函数就是一个非常实用的特性。本文将深入解析Pandas中`apply`函数的使用方法，帮助你更好地理解和应用这一功能。首先，`apply...

pandas数据分组和聚合操作方法

09-20

在数据分析领域，Pandas库是不可或缺的工具，尤其在处理和分析结构化数据时。本文主要探讨了Pandas中的数据分组和聚合操作...熟练掌握Pandas的分组和聚合方法，能够提高数据处理的效率，帮助我们更好地理解和解读数据。

Python遍历pandas数据方法总结

09-20

在Python的Pandas库中，数据处理是至关重要的任务，特别是对于DataFrame和Series这两种核心数据结构。本篇文章主要总结了遍历Pandas数据的几种...理解并熟练运用这些技巧，将有助于提高Python数据处理的效率和灵活性。

Pandas 中 Apply 函数加速百倍的技巧

m0_59162248的博客

12-21

1546

虽然目前dask,cudf等包的出现，使得我们的数据处理大大得到了加速，但是并不是每个人都有比较好的gpu，非常多的朋友仍然还在使用pandas工具包，但有时候真的很无奈，pandas的许多问题我们都需要使用apply函数来进行处理，而apply函数是非常慢的，本文我们就介绍如何加速apply函数600倍的技巧。01 Apply(Baseline)我们以Apply为例，原始的Apply函数处理下面这个问题，需要18.4s的时间。 02 Swift加速因为处理是并行的，所以我们可以使用Swift进行加速，在使

Python 性能优化：加快 Pandas、Numpy 数据处理速度的方法汇总

Python数据挖掘

04-30

1万+

pandas、numpy是Python数据科学中非常常用的库，numpy是Python的数值计算扩展，专门用来处理矩阵，它的运算效率比列表更高效。pandas是基于numpy的数据处理工具，能更方便的操作大型表格类型的数据集。但是，随着数据量的剧增，有时numpy和pandas的速度就成瓶颈。如下我们会介绍一些优化秘籍：里面包含了代码层面的优化，以及可以无脑使用的性能优化扩展包。喜欢记得收藏、关注、点赞。注：完整代码、数据、技术交流，文末获取 1、NumExpr NumExpr 是一个对NumPy计算

pandas--高质量使用技巧

zhf976650174的博客

03-04

452

一、apply 效率低，可以优化的方法用pandas处理数据时，常需要用到apply方法对某列或者某几列数据进行处理。apply方法便捷易懂，但随着处理数据量的增加以及处理函数的复杂度增加，apply所需要的耗时也会增加。常见的两种方式： 1、矢量化操作，它是在Pandas中做事的最快方法，且优先考虑内置函数。如下图的pandas vectorization 直接通过列名进行操作，例如进行计算、生成布尔值、字符串操作等。 df['sum'] = df.sum() df['bool'] = d

Pandas初学者代码优化指南

CSDN研发技术

11-21

7182

原文：A Beginner’s Guide to Optimizing Pandas Code for Speed 作者：Sofia Heisler 翻译：无阻我飞扬摘要：Pandas 是Python Data Analysis Library的简写，它是为了解决数据分析任务而创建的工具，本文介绍了五种由慢到快逐步优化其效率的方法，以下是译文如果你用Python语言做过任何的数据分析

还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

热门推荐

python学习者的博客

12-17

2万+

前言当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的： “快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。” 我们知道pandas的两个主要数据结构：dataframe和series，我们对数据的一些操作都是基于这两个...

pandas apply方法速度太慢优化方法之 joblib 包实现多进程

yy的博客

07-10

7146

转载:https://blog.csdn.net/sinat_30353259/article/details/83818646 原理就是joblib会把你的df.groupby()结果进行切分,然后每个块(分组)去跑多进程,然后最后通过concat把每个进程数据合并就好了. 单进程多进程代码对比: 单进程: %%time def run(df): # print(df) ...

Pandas进阶之提升运行效率

weixin_30329623的博客

06-24

130

前言如果你现在正在学习数据分析，或者正在从事数据分析行业，肯定会处理一些大数据集。pandas就是这些大数据集的一个很好的处理工具。那么pandas到底是什么呢？官方文档上说： " 快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。" 快速、灵活、简单、直观！这些听起来感觉很棒。如果你的工作涉及到构建复杂的数据模型，你肯定不希望花费大量的开发时间等待...

pandas apply函数_技术分享：如何使Pandas来加速你的代码？

weixin_39603778的博客

11-30

220

问任何一个数据科学家，他们喜欢如何使用Python处理他们的数据集，他们无疑会谈到Pandas。Pandas是一个伟大的编程库的缩影：简单、直观、功能广泛。然而，对数据科学家的一项常规任务，使用Pandas进行数千甚至数百万次的计算，仍然是一个挑战。你不能只是将数据放入，编写Python for循环，然后期望在合理的时间内处理数据。Pandas是为一次性处理整个行或列的矢量化操作而设计的—循环遍历...

pandas使用apply时加速的方式

weixin_44133327的博客

12-11

890

pandas的使用

行很多，怎么提高pandas 的处理效率

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交