在PySpark数据框中添加新列的5种方法

每天都在生成太多数据。

尽管有时我们可以使用Rapids或Parallelization等工具来管理大数据,但如果您使用的是TB级数据,Spark是一个很好的工具。

尽管这篇文章解释了如何使用RDD和基本的Dataframe操作,但是我在使用PySpark Dataframes时错过了很多东西。

只有当我需要更多功能时,我才阅读并提出多种解决方案来做一件事情。

如何在Spark中创建新列?

现在,这听起来微不足道,但请相信我,事实并非如此。 您可能想要处理这么多数据,所以我很确定您最终将在工作流中使用大多数这些列创建过程。 有时使用Pandas功能,有时使用基于RDD的分区,有时使用成熟的python生态系统。

这篇文章将是关于"在Pyspark Dataframe中创建新列的多种方法"。

如果您安装了PySpark,则可以跳过下面的"入门"部分。

Spark入门

我知道很多人不会在系统中安装Spark来尝试和学习。 但是安装Spark本身就是一件令人头疼的事情。

由于我们想了解它是如何工作的以及如何使用它,因此建议您在此处与社区版一起在线使用Databricks上的Spark。 不用担心,它是免费的,尽管资源较少,但是对于我们来说,出于学习目的,它现在就适用。

file

一旦注册并登录,将显示以下屏幕。

file

您可以在此处启动新笔记本。

选择Python笔记本,并为笔记本命名。

启动新笔记本并尝试执行任何命令后,笔记本将询问您是否要启动新群集。 做吧

下一步将检查sparkcontext是否存在。 要检查sparkcontext是否存在,您必须运行以下命令:

sc

file

这意味着我们已经设置了可以运行Spark的笔记本。

数据

在这里,我将处理Movielens ml-100k.zip数据集。 1000位用户观看1700部电影时获得100,000个评分。 在此压缩文件夹中,我们将专门使用的文件是评估文件。 该文件名保留为" u.data"

如果要上载此数据或任何数据,可以单击左侧的"数据"选项卡,然后使用提供的GUI添加数据。

file

然后,我们可以使用以下命令加载数据&#x

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值