Python怎样存储变量性能最优？这篇文章告诉你答案

最新推荐文章于 2024-04-26 12:38:09 发布

雪碧没气阿

最新推荐文章于 2024-04-26 12:38:09 发布

阅读量604

点赞数 9

分类专栏： Python python教程 Python脚本文章标签： python 开发语言数据分析

本文链接：https://blog.csdn.net/xxue345678/article/details/137771924

版权

Python 同时被 3 个专栏收录

43 篇文章 2 订阅

订阅专栏

Python脚本

33 篇文章 0 订阅

订阅专栏

python教程

16 篇文章 0 订阅

订阅专栏

工作时我们经常会遇到需要临时保存结果变量的场景，尤其是一些数据处理、模型开发的场景，加载处理速度是个很漫长的过程，于是经常会把这些变量储存起来。

而储存变量最常见、最普遍的方法是用pickle，保存为pkl文件。但是如果从写入和读取的性能角度考虑，pkl可能真的不是最优选。

Pickle有其独特的好处，大部分变量不需要进行处理，都能直接存到pkl文件里，但这样的方便其实是牺牲了部分性能取得的。与之相比，numpy的.npy格式就比pickle性能上快不少。

当然，我们需要有证据支撑这个观点。所以今天我们就来做个实验，分别在Python2和Python3中对比 numpy 和 pickle 两种存储格式(.npy, .pkl) 对数据的存储和读取的性能对比。

1. Python2中, npy与pkl的性能对比

首先初始化数据：

import numpy as np
import time
import cPickle as pkl
import os

all_batches = []
for i in range(20):
    a1 = np.random.normal(size=[25600, 40])
    label = np.random.normal(size=[25600, 1])
    all_batch = np.concatenate([a1, label], 1)
    all_batches.append(all_batch)
all_batches = np.array(all_batches)
print(all_batches.shape)
# (20, 25600, 41)

然后测试使用pickle保存和读取时间的耗时，以及整个文件的大小：

s_t1 = time.time()
pkl_name = "a.pkl"
with open(pkl_name, "wb") as f:
    pkl.dump(all_batches, f)
pkl_in_time = time.time() - s_t1
print("pkl dump costs {} sec".format(pkl_in_time))

s_t2 = time.time()
with open(pkl_name, "rb") as f:
    new_a = pkl.load(f)
pkl_out_time = time.time() - s_t2
print("pkl load costs {} sec".format(pkl_out_time))

pkl_size = os.path.getsize(pkl_name)
print("pkl file size: {} byte, {} mb".format(pkl_size, float(pkl_size)/(1024*1024)))

结果如下：

即：

pkl dump costs 67.7483091354 sec
pkl load costs 52.1168899536 sec
pkl file size: 497437110 byte, 474.392995834 mb

然后再试一下npy的写入和读取：

s_t3 = time.time()
npy_name = "a.npy"
with open(npy_name, "wb") as f:
    np.save(f, arr=all_batches)
npy_in_time = time.time() - s_t3
print("npy save costs {} sec".format(npy_in_time))
s_t4 = time.time()
with open(npy_name, "rb") as f:
    new_a = np.load(f)
npy_out_time = time.time() - s_t4
print("npy load costs {} sec".format(npy_out_time))
npy_size = os.path.getsize(npy_name)
print("npy file size: {} byte, {} mb".format(npy_size, float(npy_size) / (1024 * 1024)))

结果如下：

即：

npy save costs 20.718367815 sec
npy load costs 0.62314915657 sec
npy file size: 167936128 byte, 160.15637207 mb

结果发现，npy性能明显优于pkl格式。

通过多次测试发现，在Python2中，npy格式的性能优势全面碾压pkl，工程允许的情况下，在Python2中，我们应该在这二者中毫不犹豫地选择npy.

2.Python3中, npy与pkl的性能对比

Python2已经是过去式，重点还要看Python3.

在Python3中，与Python2的代码唯一一句不一样的是pickle的引入：

# Python2:
import cPickle as pkl

# Python3:
import pickle as pkl

其他代码基本一样，替换代码后，重新运行程序，让我们看看在Python3上，npy格式和pkl格式性能上的区别，首先是pkl格式的表现：

ckenddeMacBook-Pro:Documents ckend$ python 1.py
(20, 25600, 41)
pkl dump costs 24.32167887687683 sec
pkl load costs 4.480823040008545 sec
pkl file size: 167936163 byte, 160.15640544891357 mb

然后是npy格式的表现：

npy save costs 22.471696853637695 sec
npy load costs 0.3791017532348633 sec
npy file size: 167936080 byte, 160.1563262939453 mb

可以看到在Python3中pkl格式和npy格式的存储大小是基本相同的，在存储耗时上也相差无几。但是在读取数据的时候，npy相对于pkl还是有一定的优势的。

因此，如果你的程序非常注重读取效率，那么我觉得npy格式会比pkl格式更适合你。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

雪碧没气阿

关注

9
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录