【转载】Python遍历pandas数据方法总结

最新推荐文章于 2024-03-08 20:47:38 发布

SophiaSSSSS

最新推荐文章于 2024-03-08 20:47:38 发布

阅读量364

点赞数 1

分类专栏：数据分析工具学习帖文章标签： python

原文链接：https://www.jb51.net/article/134753.htm

版权

数据分析工具学习帖专栏收录该内容

25 篇文章 1 订阅

订阅专栏

转载自脚本之家
https://www.jb51.net/article/134753.htm 《Python遍历pandas数据方法总结》

贴4条常用的，其他的移步原帖链接。

列表解析方式

disftance_list = [df.iloc[i][‘high']/df.iloc[i][‘open'] for i in range(0,len(df))]

apply()方法循环方式
apply()方法可将函数应用于dataframe特定行或列。函数由lambda方式在代码中内嵌实现，lambda函数的末尾包含axis参数，用来告知Pandas将函数运用于行（axis = 1）或者列（axis = 0）。

实现代码如下：

df.apply(lambda row: row[‘high']/row[‘open'], axis =1)

Pandas series 的矢量化方式
Pandas的DataFrame、series基础单元数据结构基于链表，因此可将函数在整个链表上进行矢量化操作，而不用按顺序执行每个值。Pandas包括了非常丰富的矢量化函数库，我们可把整个series（列）作为参数传递，对整个链表进行计算。

实现代码如下：

dftest4['rate'] = dftest4['high']/dftest4['open']

Numpy arrays的矢量化方式
由于函数的矢量化实现中只使用了series的数值，因此可使用values 方法将链表从Pandas series转换为NumPy arrays，把NumPy array作为参数传递，对整个链表进行计算。

实现代码如下：

dftest5['rate'] = dftest5['high'].values/dftest5['open'].values

总结
使用timeit方法对以上几种遍历方式进行执行时间测试，测试结果如下。可以看出循环执行的速度是最慢的，iterrows()针对Pandas的dataframe进行了优化，相比直接循环有显著提升。apply()方法也是在行之间进行循环，但由于利用了类似Cython的迭代器的一系列全局优化，其效率要比iterrows高很多。NumPy arrays的矢量化运行速度最快，其次是Pandas series矢量化。由于矢量化是同时作用于整个序列的，可以节省更多的时间，相比使用标量操作更好，NumPy使用预编译的C代码在底层进行优化，同时也避免了Pandas series操作过程中的很多开销，例如索引、数据类型等等，因此，NumPy arrays的操作要比Pandas series快得多。

SophiaSSSSS

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【转载】Python遍历pandas数据方法总结

转载自脚本之家https://www.jb51.net/article/134753.htm 《Python遍历pandas数据方法总结》贴两条常用的，其他的移步原帖链接。列表解析方式disftance_list = [df.iloc[i][‘high']/df.iloc[i][‘open'] for i in range(0,len(df))]apply()方法循环方式apply()方法可将函数应用于dataframe特定行或列。函数由lambda方式在代码中内嵌实现，lambda函数的末
复制链接

扫一扫