【spark实战系列】spark 结合实例分析 stage 的划分过程

最新推荐文章于 2023-04-26 19:35:11 发布

JasonLee实时计算

最新推荐文章于 2023-04-26 19:35:11 发布

阅读量2.3k

点赞数 2

分类专栏： Spark 实战系列文章标签： spark stage job task shuffle

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/84796858

版权

Spark 实战系列专栏收录该内容

41 篇文章 289 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

昨天在群里有一个同学问了一个spark中关于stage的一个问题,关于spark中stage的划分可以看这个,当时我大致看了一下,简单的回答了一下他,可能说的也不太清楚,今天把这个问题写了一个小demo,总结了一下.

问题是这样的,从oracle中读取一个表,然后对某个字段进行重分区,再从oracle中读取另外一张表,同样也对某一个字段进行重分区,最后进行两个df的join操作,然后提交,他对ui上面显示的stage有点疑惑,其实这是一个很简单的逻辑处理,我尽量模仿他的代码逻辑,我是从mysql中读取的数据.下面先看下代码:

package spark

import java.io.File
import org.apache.spark.sql.{DataFrame, SparkSession}

object sparkMysql {
  def main(args: Array[String]): Unit = {
    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath
    val spark = SparkSession
      .builder()
      .appName("Spark SQL basic example").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate()
    /* .master("local[4]")
     .appName("Spark SQL basic example")
     .getOrCreate()*/
    //代表了shuffle read task的并行度，该值默认

了解本专栏

超级会员免费看

JasonLee实时计算

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
7
评论
【spark实战系列】spark 结合实例分析 stage 的划分过程

昨天在群里有一个同学问了一个spark中关于stage的一个问题,关于spark中stage的划分可以看这个,当时我大致看了一下,简单的回答了一下他,可能说的也不太清楚,今天把这个问题写了一个小demo,总结了一下.问题是这样的,从oracle中读取一个表,然后对某个字段进行重分区,再从oracle中读取另外一张表,同样也对某一个字段进行重分区,最后进行两个df的join操作,然后提交,他对u...
复制链接

扫一扫