Python pandas 2.0 初探

最新推荐文章于 2024-02-25 16:05:20 发布

数据人阿多

最新推荐文章于 2024-02-25 16:05:20 发布

阅读量511

点赞数

分类专栏： Python pandas 文章标签： python pandas 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangtingduo/article/details/130077448

版权

Python pandas 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

背景

每门编程语言都有其独特的用途，目前python在数据科学方面发展的相对比较全面，大家目前也都喜欢使用python来处理数据、做模型开发等。python在数据处理方面离不开 pandas 库，该库在今年的4月3日发布了 2.0版更新，对底层进行了大量的重构以优化性能和稳定性

主要新增功能及优化

1、引擎增加pyarrow
最主要是底层的数据引擎增加了对pyarrow支持（Apache Arrow 内存数据交换格式），pandas之前的底层引擎是numpy，numpy在处理数值型数据时效率很高，但是在处理字符串型的数据时效率比较慢，pyarrow的引入，使字符串的处理效率得到明显提升

2、写入时复制（Copy-on-Write）的优化
当你复制一个pandas对象，如DataFrame或Series，而不是立即创建一个新的数据副本，pandas将创建一个对原始数据的引用（视图），推迟创建一个新的副本，直到你以某种方式修改数据时才创建一个副本，而原数据保持不变，

这可以大大减少内存的使用，提高性能，因为你不需要对数据进行不必要的复制。总的来说，写时拷贝是一种强大的优化技术，可以帮助你更有效地处理大型数据集，并减少内存占用

安装

必须要安装pyarrow库，否则运行时会报错

pip install --upgrade pandas    #更新pandas库
pip install pyarrow             #安装pyarrow库

测试

测试数据是有12W+行数据

1、加载数据测试
从加载csv数据可以看出，速度有明显的提升，差不多有10倍

2、字符串处理测试
从字符串处理方面看，速度大约是原来的40倍

3、修改时复制机制

默认该机制是关闭的，修改视图数据时，原始数据也会被修改
打开修改时复制机制，修改视图数据时，原始数据保持不变

历史相关文章

以上是自己实践中遇到的一些问题，分享出来供大家参考学习，欢迎关注微信公众号：DataShare ，不定期分享干货

数据人阿多

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python pandas 2.0 初探

每门编程语言都有其独特的用途，目前python在数据科学方面发展的相对比较全面，大家目前也都喜欢使用python来处理数据、做模型开发等。python在数据处理方面离不开pandas库，该库在今年的4月3日发布了 2.0版更新，对底层进行了大量的重构以优化性能和稳定性。
复制链接

扫一扫

专栏目录

数据人阿多 CSDN认证博客专家 CSDN认证企业博客

码龄12年

101: 原创

6万+: 周排名

1万+: 总排名

13万+: 访问

: 等级

1663: 积分

169: 粉丝

257: 获赞

93: 评论

1003: 收藏

私信

关注

热门文章

分类专栏

最新评论

自然语言处理（NLP）Bert与Lstm结合
一路丶凯歌: Test loss: 58.742 Test accuracy: 0.480 预测概率为: 1.000000 预测结果为:负向为什么我是这样的，代码都完全一样
分类问题中Sigmoid 与 Softmax 区别
数据人阿多: 嗯，可以这么理解
分类问题中Sigmoid 与 Softmax 区别
Fun': 感谢回复，我可能没表达清楚我的意思。比如一张图像里有“人”、“猫”、“狗”，也就是3个类别，假设图像经过sigmoid输出每个类别的概率为0.98、0.89、0.95，（也就是一次输入，一次输出），但是“人”这个类别的概率0.98是怎么得来的呢，我的理解是：sigmoid对图像里的“人”和“非人”这两个类别进行了建模分类，也就是说还是二分类，同理，“猫”、“狗也是这样”。即3个概率值虽然是一次输出的，但是“一次输出”里的3个概率值本质上对应3个二分类器（“人”-“非人”； “猫”-“飞猫”； “狗”-“非狗”）。
分类问题中Sigmoid 与 Softmax 区别
数据人阿多: 不是，比如一个语句里面，包含多个意图类别的话，就可以一次输入，一次输出，每个意图类别是不同的得分
分类问题中Sigmoid 与 Softmax 区别
Fun': 抱歉，是我理解错了。有个问题想问下，文中所说的 sigmoid用于多分类任务，是不是相当于多分类任务中的每个类别都训练一个sigmoid二分类器。本质上，sigmoid还是二分类，请问我这样理解对吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数据人阿多 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。