一、案例演示读取Parquet文件
将数据文件users.parquet
上传到master虚拟机/home
将数据文件users.parquet
上传到HDFS的/input
目录
启动Spark Shell,执行命令:spark-shell --master spark://master:7077
- 加载parquet文件,返回数据帧
- 执行命令:
val userdf = spark.read.load("hdfs://master:9000/input/users.parquet")
执行命令:userdf.show()
,查看数据帧内容
执行命令:userdf.select("name", "favorite_color").write.save("hdfs://master:9000/result")
,对数据帧指定列进行查询,查询结果依然是数据帧,然后通过save()方法写入HDFS指定目录
查看HDFS上的输出结果
select()方法查询外,也可以使用SparkSession对象的sql()方法执行SQL语句进行查询,该方法的返回结果仍然是一个DataFrame。
基于数据帧创建临时视图,执行命令:userdf.createTempView("t_user")