1.准备源数据集
下载地址:https://github.com/drabastomek/learningPySpark
原始数据截图如下:
airport-code-na.txt
departuredelays.csv
首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集,来处理机场和飞行性能源数据集
from pyspark.sql import SparkSession spark = SparkSession.builder.appName(
1.准备源数据集
下载地址:https://github.com/drabastomek/learningPySpark
原始数据截图如下:
airport-code-na.txt
departuredelays.csv
首先通过制定数据集的文件路径位置以及使用SparkSession 导入数据集,来处理机场和飞行性能源数据集
from pyspark.sql import SparkSession spark = SparkSession.builder.appName(