前言
刚学习Spark相关知识,很多东西还是很陌生,只能慢慢摸索前行。
使用SparkSession读取parquet 文件,简单演示运行。
SparkSession类是Spark中所有功能的入口点。可以使用SparkSession.builder()来创建一个基本的SparkSession实例
程序
package ScalaStudy.nian
import org.apache.spark.sql.SparkSession
object studySpark {
def main(args: Array[String]): Unit = {
println("Starting ... ")
val spark = SparkSession.builder().appName("parquet").master("local[*]").getOrCreate()
//import spark.implicits._
// var df_test = spark.emptyDataFrame // spark中空的数据结构
val df_test = spark.read.format ("parquet").option ("header", true).load (s"/Users/dataSource/shanghaiOneDayCe1.parquet").cache ()
df_test.show(5)
}
}
总结
- SparkSession.builder().appName(“parquet”).master(“local[*]”).getOrCreate() 环境变量导入
- spark.read.format ()读取文件数据
- 换成自己文件就行,可以读取
- builder()方法是SparkSession的构造器,通过builder()可以添加各种配置,其包含方法如下: