pandas高效读取大文件的探索之路

最新推荐文章于 2024-04-25 09:45:25 发布

Python_魔力猿

最新推荐文章于 2024-04-25 09:45:25 发布

阅读量2k

点赞数 45

文章标签： pandas

本文链接：https://blog.csdn.net/weixin_68789096/article/details/135934025

版权

使用 pandas 进行数据分析时，第一步就是读取文件。
在平时学习和练习的过程中，用到的数据量不会太大，所以读取文件的步骤往往会被我们忽视。

然而，在实际场景中，面对十万，百万级别的数据量是家常便饭，即使千万，上亿级别的数据，单机处理也问题不大。
不过，当数据量和数据属性多了之后，读取文件的性能瓶颈就开始浮现出来。

当我们第一次拿到数据时，经常会反反复复的读取文件，尝试各种分析数据的方法。
如果每次读取文件都要等一段时间，不仅会影响工作效率，还影响心情。

下面记录了我自己优化pandas读取大文件效率的探索过程。

1. 准备部分

首先，准备数据。
下面的测试用的数据是一些虚拟币的交易数据，除了常用的K线数据之外，还包含很多分析因子的值。

import pandas as pd

fp = "all_coin_factor_data_12H.csv"
df = pd.read_csv(fp, encoding="gbk")
df.shape

# 运行结果
(398070, 224)

总数据量接近40万，每条数据有224个属性。

然后，封装一个简单的装饰器来计时函数运行时间。

from time import time

def timeit(func):
    def func_wrapper(*args, **kwargs):
        start = time()
        ret = func(*args, **kwargs)
        end = time()
        spend = end - start
        print("{} cost time: {:.3f} s".format(func.__name__, spend))
        return ret

    return func_wrapper

2. 正常读取

先看看读取这样规模的数据，需要多少时间。
下面的示例中，循环读取10次上面准备的数据all_coin_factor_data_12H.csv。

import pandas as pd

@timeit
def read(fp):
    df = pd.read_csv(
        fp,
        encoding="gbk",
        parse_dates=["time"],
    )
    return df

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.csv"
    for i in range(10):
        read(fp)

运行结果如下：

最低0.47元/天解锁文章

Python_魔力猿

关注

45
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
pandas高效读取大文件的探索之路

本文探讨了一些pandas读取大文件的优化方案，最后比较好的就是Polars方案和pickle序列化方案。如果我们的项目是分析固定的数据，比如历史的交易数据，历史天气数据，历史销售数据等等，那么，就可以考虑pickle序列化方案，先花时间讲原始数据序列化，后续的分析中不担心读取文件浪费时间，可以更高效的尝试各种分析思路。除此之外的情况，建议使用Polars方案。最后补充一点，如果读取文件的性能对你影响不大，那就用原来的方式，千万不要画蛇添足的去优化，把精力花在数据分析的业务上。
复制链接

扫一扫