SparkSession 读取文件

最新推荐文章于 2022-08-17 19:14:47 发布

nsq_ai

最新推荐文章于 2022-08-17 19:14:47 发布

阅读量1.8k

点赞数

分类专栏： SparK学习和总结文章标签： spark scala big data

本文链接：https://blog.csdn.net/weixin_45063703/article/details/120167850

版权

SparK学习和总结专栏收录该内容

25 篇文章 2 订阅

订阅专栏

这篇博客介绍了如何在Scala中使用SparkSession读取Parquet文件。作者从SparkSession的构建开始，展示了如何通过`SparkSession.builder()`设置appName和master，然后利用`spark.read.format()`方法加载Parquet数据，并展示前5行记录。这为初学者提供了一个简单的Spark数据处理示例。

摘要由CSDN通过智能技术生成

前言

刚学习Spark相关知识，很多东西还是很陌生，只能慢慢摸索前行。
使用SparkSession读取parquet 文件，简单演示运行。

SparkSession类是Spark中所有功能的入口点。可以使用SparkSession.builder()来创建一个基本的SparkSession实例

程序

package ScalaStudy.nian

import org.apache.spark.sql.SparkSession

object studySpark {

  def main(args: Array[String]): Unit = {
    println("Starting ... ")

    val spark = SparkSession.builder().appName("parquet").master("local[*]").getOrCreate()

    //import spark.implicits._

//    var df_test = spark.emptyDataFrame // spark中空的数据结构
    val df_test = spark.read.format ("parquet").option ("header", true).load (s"/Users/dataSource/shanghaiOneDayCe1.parquet").cache ()

    df_test.show(5)
  }
}

总结

SparkSession.builder().appName(“parquet”).master(“local[*]”).getOrCreate() 环境变量导入
spark.read.format ()读取文件数据
换成自己文件就行，可以读取
builder()方法是SparkSession的构造器，通过builder()可以添加各种配置，其包含方法如下: