每天都在生成太多数据。
尽管有时我们可以使用Rapids或Parallelization等工具来管理大数据,但如果您使用的是TB级数据,Spark是一个很好的工具。
尽管这篇文章解释了如何使用RDD和基本的Dataframe操作,但是我在使用PySpark Dataframes时错过了很多东西。
只有当我需要更多功能时,我才阅读并提出多种解决方案来做一件事情。
如何在Spark中创建新列?
现在,这听起来微不足道,但请相信我,事实并非如此。 您可能想要处理这么多数据,所以我很确定您最终将在工作流中使用大多数这些列创建过程。 有时使用Pandas功能,有时使用基于RDD的分区,有时使用成熟的python生态系统。
这篇文章将是关于"在Pyspark Dataframe中创建新列的多种方法"。
如果您安装了PySpark,则可以跳过下面的"入门"部分。
Spark入门
我知道很多人不会在系统中安装Spark来尝试和学习。 但是安装Spark本身就是一件令人头疼的事情。
由于我们想了解它是如何工作的以及如何使用它,因此建议您在此处与社区版一起在线使用Databricks上的Spark。 不用担心,它是免费的,尽管资源较少,但是对于我们来说,出于学习目的,它现在就适用。
一旦注册并登录,将显示以下屏幕。
您可以在此处启动新笔记本。
选择Python笔记本,并为笔记本命名。
启动新笔记本并尝试执行任何命令后,笔记本将询问您是否要启动新群集。 做吧
下一步将检查sparkcontext是否存在。 要检查sparkcontext是否存在,您必须运行以下命令:
sc
这意味着我们已经设置了可以运行Spark的笔记本。
数据
在这里,我将处理Movielens ml-100k.zip数据集。 1000位用户观看1700部电影时获得100,000个评分。 在此压缩文件夹中,我们将专门使用的文件是评估文件。 该文件名保留为" u.data"
如果要上载此数据或任何数据,可以单击左侧的"数据"选项卡,然后使用提供的GUI添加数据。
然后,我们可以使用以下命令加载数据&#x