在Window10系统中安装Pandas并行加速库Modin的流程及效果测试

本文介绍了在Windows10系统中通过Ubuntu和WSL安装Modin库的过程,详细讲解了安装步骤,并分享了在8核机器上的性能测试结果,显示Modin能显著提升Pandas的read_csv操作速度,但某些功能如fill_na可能不如Pandas。总结建议在Pandas性能瓶颈时考虑使用Modin。
摘要由CSDN通过智能技术生成

安装动机

最近在用Pandas处理一些大数据集时明显感受到了Pandas的缺陷:只能使用CPU的一个核心来计算,对于我新买的8核16线程的机子来说,有大量资源都被浪费了。

本着加速Pandas运行的动机,上网搜索了很多能充分利用本地CPU资源的措施,但是看了一些诸如threading, multiprocessing之类的库,还是感觉环境的部署有些难以理解,其中的运用也有一些限制(比如自定义函数必须有返回值),对于像我这样非CS专业背景的人来说还是不够友好。最终发现了这个号称能够实现一行代码加速Pandas运行的Modin库(事实上也确实如此),鼓捣了一整天之后终于成功实现了Pandas的充分并行加速。

虽然使用起来非常方便,但在安装过程中走了不少弯路,网上也没有非常明确的信息指导安装,因此写下这篇文章,以免后来者再重蹈覆辙。

Modin库简介

在这里插入图片描述

Modin 是加州大学伯克利分校 RISELab 的一个早期项目,旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。

在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。

该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas。

如果对Modin库具体的工作流程感兴趣,请参考机器之心的知乎文章-想让pandas运行更快吗?那就用Modin吧

安装流程

必须要指出的是,只有Window 10系统才能支持以下的安装流程

由于Windows环境下并不直接支持Ray,而Ray是安装Modin所必须的,因此我们需要使用WSL(适用 Linux 的 Windows 子系统),整体的流程也因此比以往pip即可的流程变得复杂了一些

总体来说分为四步:

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
在PyCharm安装pandas可以通过以下步骤进行操作: 1. 打开PyCharm,进入项目界面。 2. 点击顶部菜单栏的"File",选择"Settings"。 3. 在弹出的窗口,选择"Project: \[项目名称\]",然后点击"Python Interpreter"。 4. 在Python Interpreter界面的右上角,点击"+"按钮,进入搜索第三方的界面(Available Packages窗口)。 5. 在搜索栏输入"pandas",然后选择"pandas"。 6. 点击左下方的"Install Packages"按钮,等待安装完成。 这样就可以在PyCharm成功安装pandas了。\[1\]另外,如果你之前已经在系统安装了Anaconda,那么pandas应该已经自动安装好了,你可以通过在PyCharm导入pandas来使用它。\[2\]如果你想手动安装pandas,你可以在PyCharm的终端运行以下命令:pip install pandas。\[3\] #### 引用[.reference_title] - *1* *3* [[转]PyCharm 上安装 Package(以 pandas 为例)](https://blog.csdn.net/Rebecca123_/article/details/120483989)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [在Pycharm安装Pandas方法(简单易懂)](https://blog.csdn.net/xs1997/article/details/100325642)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值