比较Dask,Ray,Modin,Vaex和RAPIDS

看到了一篇文章,在这儿记录一下

  • ModinRay作为后端。通过安装这些,您可能会看到仅更改一行(“import pandas as pd”到“import modin.pandas as pd”)的显着好处。与其他工具不同,Modin旨在与Pandas完全兼容。

  • Dask,一个更大,因此更复杂的项目。但Dask还提供了Dask.dataframe,这是一个更高级别的,类似Pandas的库,可以帮助您处理核心外的数据集。

  • Vaex,旨在帮助您在标准笔记本电脑上处理大数据。它的Pandas替代品涵盖了一些Pandas API,但它更侧重于探索和可视化。

  • RAPIDS,如果您可以访问NVIDIA显卡。
    在这里插入图片描述
    Dask和Ray更成熟,但Modin和Vaex更容易上手。如果您可以访问 GPU,Rapids 非常有用

  • Maturity: The time since the first commit and the number of commits.

  • Popularity: The number of GitHub stars.

  • Ease of Adoption: The amount of knowledge expected from users, presumed hardware resources, and ease of installation.

  • Scaling ability: The broad dataset size limits for each tool, depending on whether it relies mainly on RAM, hard drive space on a single machine, or can scale up to clusters of machines.

  • Use case: Whether the libraries are designed to speed up Python software in general (“General”), are focused on data science and machine learning (“Data science”), or are limited to simply replacing Pandas’ ‘DataFrame’ functionality (“DataFrame”).

如果你还没有遇到扩展或效率问题,那么单独使用Python和Pandas没有错。它们被广泛使用,并提供成熟性和稳定性,以及简单性。

只有在您自己达到Python和Pandas的限制之后,您才应该开始研究此处讨论的库。否则,您就有可能花费太多时间选择和配置库,而不是在项目上取得进展。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值