机器学习案例详解的直播互动平台——
机器学习训练营(入群联系qq:2279055353)
下期直播案例预告:大数据预测商品的销售量波动趋势
这是关于“纽约出租车计费问题”的第三篇文章,重点介绍如何在Python里加载超大规模的数据集。在这个案例里,训练集train.csv
是一个55,423,855行的数据集。由于受到内存容量、计算速度等因素的限制,大多数解决方案仅仅加载了训练集的一部分数据。我们将在本篇介绍如何快速地加载训练集的所有数据进入一个数据框。
为了实现在Python里快速导入超大数据集的目的,需要两个重要的辅助工具库:dask
and tqdm
. 因此,我们首先介绍它们。
辅助工具库
Dask
Dask是一个用于并行计算的Python库。它由两部分组成:
-
动态任务调度:迭代地优化计算任务
-
大数据集合:运行在动态任务调度器顶端的并行大数据集
下面的图显示了dask的作用:
安装Dask
你能通过conda
or pip
安装dask.
Conda
Dask在Anaconda
里默认安装。你也可以使用conda命令升级dask:
conda install dask
这种安装方法附带安装了所有的dependencies
, 包括Pandas
and NumPy
.
可选地,你能使用下面的命令仅安装dask的必需部分:
conda install dask-core
Pip
你也可以使用Python包管理器Pip安装dask, 完整安装命令:
pip install "dask[complete]" # Install everything
你也可以只安装dask, 这时,如果要使用dask.array
, dask.dataframe
or dask.distributed
, 必须安装NumPy, Pandas