一、DataFrame创建
spark下创建dataframe 一般是通过SparkSession 导入数据来创建的
# 导包
from pyspark import SparkContext
from pyspark.sql.session import SparkSession
# 创建session
sc = SparkContext.getOrCreate()
spark = SparkSession(sc)
在之前的文章中,我们已知了 RDD可以通过自己创建,也可以通过访问本地的文件系统获得。同样,datafrom也可以通过访问文件系统,或者是通过自己创建的RDD来获得。今天学习的是通过创建的RDD来生成dataframe数据。
# 定义JsonRDD
jsonRdd = sc.parallelsize([
{
'id': 123,
'name': 'roc',
'age': 24,
},
{
'id': 234,
'name':