pandas的map、apply、applymap及速度问题

几分出发

已于 2023-02-28 15:26:52 修改

阅读量2.2k

点赞数 2

分类专栏： python 文章标签： pandas python 数据分析

于 2023-02-27 22:48:10 首次发布

本文链接：https://blog.csdn.net/weixin_44815511/article/details/129248788

版权

python 专栏收录该内容

1 篇文章

订阅专栏

引：对于pandas中的对象（DataFrame和Series），可以使用函数对元素进行操作。在《利用python进行数据分析》一书中，简要介绍了4种方法：

1、使用NumPy的ufuncs（元素级数组方法）用于操作pandas对象：

接下来便是今天要说的三个方法：map()、apply()、applymap()

但是以上方法存在速度慢的缺陷，我将在后面讨论

一、Series：map、apply

对于Series来说，有map和apply两种方法，他们的作用都是把Series中的值代进函数中去；或者可以认为按Series索引迭代执行函数，

官方文档中对map的定义是：

根据输入映射或函数映射序列的值。
用于将序列中的每个值替换为另一个值，可能派生于函数或一个序列、字典

对于apply的定义：

对序列的值调用函数。
可以是 ufunc（适用于整个系列的 NumPy 函数）或仅适用于单个值的 Python 函数。

例：

除了给入一个lambda函数作为参数，还可以自定义函数作为参数，只要保证自定义函数的参数和返回值都是一个。

apply和map两者还是有一些差异，对于map来说，它做的事情就是“将原本的值映射（mapping）到另外的值”因此map不但可以接收一个函数，它也可以接受dictionary或另外一个Series,只要是可以一一对应的就好

如果给定的是dictionary,那么dictionary的keys就相当于函数的输入，而key所对应的value就相当于函数的输出，所以上面的dic中，1这个key对应的value是'a'，所以map后，1就变成'a'了，另一方面，dic中并没有3这个key，所以s1中原本是3的值，但map后就变成了NaN

那如果给定的是Series，概念和dictionary时相似的，只是函数的输入变成Series的index，函数的输出变成index所对应的值，所以s1中，原本为1的值，在map后变成32，因为s1_map中，index=1的值就是32

那对 apply 来说，虽然它没办法像map那样还可以接受dictionary和Series，但是它可以给定额外的参数