Numpy ndarray与Pandas dataframe数据结构的分析

最新推荐文章于 2024-07-14 16:22:31 发布

auto_beaver

最新推荐文章于 2024-07-14 16:22:31 发布

阅读量1.3k

点赞数

分类专栏：算法工程师常用工具文章标签： pandas python 数据分析机器学习数据预处理

本文链接：https://blog.csdn.net/weixin_43714188/article/details/85048891

版权

本文分析了Numpy的ndarray和Pandas的dataframe数据结构，探讨了dataframe在处理大规模数据时的内存占用问题。通过理解dataframe的BlockManager和内存布局，提出通过优化数据类型、逐条生成和写入数据的策略来降低内存消耗。同时，介绍了如DataFrame.info()、astype()等用于检查和调整数据类型的命令，以提升数据处理效率。

摘要由CSDN通过智能技术生成

Numpy ndarray
Numpy是高性能科学计算和数据分析的基础包，其提供了一个重要的数据结构ndarray。ndarray是一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组，是一个通用的同构数据多维容器（所有元素必须是相同的类型）。此外其提供了一个简单易用的C API，因此很容易将数据传递给低级语言编写的外部库。

Pandas dataframe
Pandas为目前最常用的数据分析与处理的高级库，其提供了一个使数据分析变得更简单快捷的高级数据结构pandas。dataframe基于numpy的ndarray构建而成，dataframe可以自动添加索引，并自动根据索引将数据进行对齐。dataframe还可以灵活的方便的处理缺失数据以及重复数据，其同样支持其他的关系型数据库中常用的功能方法。

关于dataframe占用内存大
dataframe处理小规模的数据集（小于100兆）时，其性能不会成为问题。处理大规模数据集（数百G）时一般使用spark等大数据工具。对于中等数据集（数G）dataframe容易遭遇性能瓶颈，为了在中等数据集上使用灵活且便利的dataframe数据格式，需要了解dataframe占用内存大的原因，并找到解决的方法。
在dataframe中相同数据类型dtypes的列会被存储在同一个块block中，每一个block是一个numpy ndarray并存储于内存中连续的区域。pandas 的 BlockManager 类则负责保留行列索引与实际块之间的映射关系。将数据初始导入为dataframe格式时，每个block都是用相同的数据结构，会导致占用高于理论值的内存。

逐条生成并写入特征数据

最低0.47元/天解锁文章

auto_beaver

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Numpy ndarray与Pandas dataframe数据结构的分析

Numpy ndarrayNumpy是高性能科学计算和数据分析的基础包，其提供了一个重要的数据结构ndarray。ndarray是一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组，是一个通用的同构数据多维容器（所有元素必须是相同的类型）。此外其提供了一个简单易用的C API，因此很容易将数据传递给低级语言编写的外部库。Pandas dataframePandas为目前最常用的数据...
复制链接

扫一扫

专栏目录