本文主要目的是让我们来快速上手PySpark DataFrame API。
PySpark DataFrames是延迟计算的。它们是在RDDs的基础上实现的。当Spark进行transform算子时,它是不会立即计算结果的,而是稍后遇到Action算子(比如collect()算子)后再执行。
PySpark的应用程序从初始化SparkSession开始,它是PySpark的入口点,如下所示。
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
tips:
如果通过pyspark可执行文件在PySpark shell中运行它,shell会自动在变量spark中为用户创建会话。
一、创建DataFrame
PySpark DataFrame可以通过pyspark.sql.SparkSession.createDataFrame
方法创建,向此方法里传递列表、元组、字典、pyspark.sql.Rows</