在PySpark数据框中添加新列的5种方法

最新推荐文章于 2024-08-08 13:37:43 发布

wulishinian

最新推荐文章于 2024-08-08 13:37:43 发布

阅读量7.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wulishinian/article/details/105817409

版权

本文详细介绍了在PySpark Dataframe中创建新列的五种方法，包括使用Spark内置函数、Spark UDF、RDD、Pandas UDF和SQL。通过实例展示了如何利用这些方法进行数据处理，适合于需要对大规模数据进行操作的读者。

摘要由CSDN通过智能技术生成

每天都在生成太多数据。

尽管有时我们可以使用Rapids或Parallelization等工具来管理大数据，但如果您使用的是TB级数据，Spark是一个很好的工具。

尽管这篇文章解释了如何使用RDD和基本的Dataframe操作，但是我在使用PySpark Dataframes时错过了很多东西。

只有当我需要更多功能时，我才阅读并提出多种解决方案来做一件事情。

如何在Spark中创建新列？

现在，这听起来微不足道，但请相信我，事实并非如此。您可能想要处理这么多数据，所以我很确定您最终将在工作流中使用大多数这些列创建过程。有时使用Pandas功能，有时使用基于RDD的分区，有时使用成熟的python生态系统。

这篇文章将是关于"在Pyspark Dataframe中创建新列的多种方法"。

如果您安装了PySpark，则可以跳过下面的"入门"部分。

Spark入门

我知道很多人不会在系统中安装Spark来尝试和学习。但是安装Spark本身就是一件令人头疼的事情。

由于我们想了解它是如何工作的以及如何使用它，因此建议您在此处与社区版一起在线使用Databricks上的Spark。不用担心，它是免费的，尽管资源较少，但是对于我们来说，出于学习目的，它现在就适用。

file

一旦注册并登录，将显示以下屏幕。

file

您可以在此处启动新笔记本。

选择Python笔记本，并为笔记本命名。

启动新笔记本并尝试执行任何命令后，笔记本将询问您是否要启动新群集。做吧

下一步将检查sparkcontext是否存在。要检查sparkcontext是否存在，您必须运行以下命令：

sc

file

这意味着我们已经设置了可以运行Spark的笔记本。

数据

在这里，我将处理Movielens ml-100k.zip数据集。 1000位用户观看1700部电影时获得100,000个评分。在此压缩文件夹中，我们将专门使用的文件是评估文件。该文件名保留为" u.data"

如果要上载此数据或任何数据，可以单击左侧的"数据"选项卡，然后使用提供的GUI添加数据。

file

然后，我们可以使用以下命令加载数据&#x

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。