【无标题】

最新推荐文章于 2024-07-08 03:28:55 发布

Lee Ber

最新推荐文章于 2024-07-08 03:28:55 发布

阅读量128

点赞数

文章标签： python pandas 开发语言

原文链接：https://mp.weixin.qq.com/s/rVJSVJtoJSNKy0iHO28SOw

版权

速度起飞！替代 pandas 的 8 个神库
Python研究者 2022-07-08 09:42 发表于江苏
以下文章来源于Python数据科学，作者东哥起飞

之前介绍过不少关于pandas性能加速的技巧，但这些技巧再厉害，整体运行速度方面也会遇到瓶颈。

本篇介绍 8 个可以替代pandas的库，在加速技巧之上，再次打开速度瓶颈，大大提升数据处理的效率。

Dask
Dask在大于内存的数据集上提供多核和分布式并行执行。

图片
在Dask中，一个DataFrame是一个大型且并行的DataFrame，由许多较小的 pandas DataFrames组成，沿索引拆分。

这些 pandas DataFrames 可以存在于单个机器上的磁盘中计算远超于内存的计算，或者存在集群中的很多不同机器上完成。一个 Dask DataFrame 操作会触发所有 Pandas DataFrames 的操作。

Dask-ML支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等，对于常用的数据处理、建模分析是完全够用的。

安装dask

pip install dask

导入dask dataframe

import dask.dataframe as dd
原理、使用可参考这篇：安利一个Python大数据分析神器Dask！

Modin
Modin是一个多进程的Dataframe库，可以加速Pandas的工作流程。多进程意味着，如果在多核的计算机上查询速度就会成倍的提升。

Modin具有与pandas相同的API，使用上只需在import导入时修改一下，其余操作一模一样。

导入 modin pandas

import modin.pandas as pd
原理、安装、使用可参考这篇：pandas慢怎么办？来试试Modin

Data Table
Datatable是一个用于处理表格数据的 Python 库。

与pandas的使用上很类似，但更侧重于速度和大数据的支持。在单节点的机器上，无论是读取数据，还是数据转换等操作，速度均远胜于pandas。

如果不是分布式而是单节点处理数据，遇到内存不够或者速度慢，也不妨试试这个库。

使用文档：https://datatable.readthedocs.io/en/latest/start/quick-start.html

Polars
Polars是使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现的速度极快的 DataFrames 库。

安装 polars

pip install polars

导入 polars

import polars as pl
使用文档：https://pola-rs.github.io/polars-book/user-guide/index.html

Vaex
Vaex 也是一个开源的 DataFrame，它采用内存映射、高效的核外算法和延迟计算等技术。

对于大数据集而言，只要磁盘空间可以装下数据集，使用Vaex就可以对其进行分析，解决内存不足的问题。

它的各种功能函数也都封装为类 Pandas 的 API，几乎没有学习成本。

可参考这篇文章：0.052 秒打开 100GB 数据，这个Python开源库火爆了！

Pyspark
Pyspark 是 Apache Spark 的 Python API，通过分布式计算处理大型数据集。

安装

pip install pyspark

导入

from pyspark.sql import SparkSession, functions as f
spark = SparkSession.builder.appName(“SimpleApp”).getOrCreate()
df = spark.read.option(‘header’, True).csv('…/input/yellow-new-yo
由于spark在速度上较hadoop更有优势，现在很多企业的大数据架构都会选择使用spark。