纽约出租车计费问题：如何加载千万行级的大数据集

最新推荐文章于 2024-04-28 17:19:36 发布

Goodsta

最新推荐文章于 2024-04-28 17:19:36 发布

阅读量1.2k

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wong2016/article/details/87267154

版权

机器学习案例详解的直播互动平台——
机器学习训练营（入群联系qq：2279055353）
下期直播案例预告：大数据预测商品的销售量波动趋势

这是关于“纽约出租车计费问题”的第三篇文章，重点介绍如何在Python里加载超大规模的数据集。在这个案例里，训练集train.csv是一个55,423,855行的数据集。由于受到内存容量、计算速度等因素的限制，大多数解决方案仅仅加载了训练集的一部分数据。我们将在本篇介绍如何快速地加载训练集的所有数据进入一个数据框。

为了实现在Python里快速导入超大数据集的目的，需要两个重要的辅助工具库：dask and tqdm. 因此，我们首先介绍它们。

辅助工具库

Dask

Dask是一个用于并行计算的Python库。它由两部分组成：

动态任务调度：迭代地优化计算任务
大数据集合：运行在动态任务调度器顶端的并行大数据集

下面的图显示了dask的作用：

在这里插入图片描述

安装Dask

你能通过conda or pip安装dask.

Conda

Dask在Anaconda里默认安装。你也可以使用conda命令升级dask:

conda install dask

这种安装方法附带安装了所有的dependencies, 包括Pandas and NumPy.

可选地，你能使用下面的命令仅安装dask的必需部分：

conda install dask-core

Pip

你也可以使用Python包管理器Pip安装dask, 完整安装命令：

pip install "dask[complete]"    # Install everything

你也可以只安装dask, 这时，如果要使用dask.array, dask.dataframe or dask.distributed, 必须安装NumPy, Pandas

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
纽约出租车计费问题：如何加载千万行级的大数据集

机器学习案例详解的直播互动平台——机器学习训练营（qq群号：696721295）下期直播案例预告：大数据预测商品的销售量波动趋势这是关于“纽约出租车计费问题”的第三篇文章，重点介绍如何在Python里加载超大规模的数据集。在这个案例里，训练集train.csv是一个55,423,855行的数据集。由于受到内存容量、计算速度等因素的限制，大多数解决方案仅仅加载了训练集的一部分数据。我们将在...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。