Spark中DataFrame前面已经给大家介绍过了,以及RDD、DataSet、DataFrame之间相互转换,而PySpark可以说是Spark和python的结合体,PySpark中也使用DataFrame,也可以与RDD、DataSet之间相互转换,其实python中有个Pandas库,也有DataFrame,是由多列Series组成的数据结构,有时需要将他们相互转化才能使用。
Spark与Pandas中的DataFrame相互转换
import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()
#创建pandas DataFrame
df = pd.DataFrame([["zhangsan",25