一、起步 在jupyter notebook中如何使用pyspark? 打开Anaconda Prompt 并使用pip 安装好pyspark第三方库。 pip install pyspark 二、常用函数 2.1 导包 # 导包 from pyspark import SparkContext # 创建会话 sc = SparkContext.getOrCreate() 2.2 创建RDD # 创建RDD 有两种方式 # 1. parallelize()创建。这种方式创建的是ParallelCollectionRDD. data = sc