joblib 对 Pandas 的并行处理

最新推荐文章于 2024-06-13 17:32:29 发布

浮汐

最新推荐文章于 2024-06-13 17:32:29 发布

阅读量1.6k

点赞数 1

分类专栏： ML

本文链接：https://blog.csdn.net/xfxlesson/article/details/103934899

版权

ML 专栏收录该内容

11 篇文章

订阅专栏

目标：
如果需要对一个很大的数据集进行操作，而基于一列数据生成新的一列数据可能都需要耗费很长时间。

于是可以使用 joblib 进行并行处理。

实现方法：
1、无并行：

import pandas as pd

def double_fun(data):
	return pow(data,2)

data['double'] = data['x'].apply(double_fun)

2、并行：

import pandas as pd
from joblib import Parallel, delayed

def double_func(data):
    return pow(data,2)

def key_func(subset):
    subset["double"] = subset["x"].apply(double_func)

data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)
data = pd.concat(results)