DataFrame的创建_下载 orderdb.txt 文件。你需要探索打开文本文件并从中创建 dataframe 的方法。-CSDN博客

本文链接：https://blog.csdn.net/weixin_44853953/article/details/109370488

DataFrame的创建

1、读取文本文件创建DataFrame

在spark2.0版本之前，Spark SQL中SQLContext是创建DataFrame和执行SQL的入口，可以利用hiveContext通过hive sql语句操作hive表数据，兼容hive操作，并且hiveContext继承自SQLContext。在spark2.0之后，这些都统一于SparkSession，SparkSession 封装了 SparkContext，SqlContext，通过SparkSession可以获取到SparkConetxt,SqlContext对象。

在这里插入图片描述

2、读取json文件创建DataFrame

spark给我们提供了json格式的示例文件，路径在
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/people.json
我们可以直接通过spark解析json数据进行创建DF

val jsonDF = spark.read.json("file:///export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/people.json")

3、读取parquet列式存储格式文件创建DataFrame

spark也给我们提供了parquet格式的数据，我们也可以通过spark直接解析parquet格式的数据来进行创建DF，示例文件的路径在
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/users.parquet

val parquetDF = spark.read.parquet("file:///export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/users.parquet")

DataFrame的创建

DataFrame的创建

1、 读取文本文件创建DataFrame

2、 读取json文件创建DataFrame

3、 读取parquet列式存储格式文件创建DataFrame

1、读取文本文件创建DataFrame

2、读取json文件创建DataFrame

3、读取parquet列式存储格式文件创建DataFrame