★★★Spark
文章平均质量分 52
spark
维格堂406小队
人天生都是软弱的,唯其软弱而犹能承担起苦难,才显出人的尊严。
展开
-
Spark006---coalesce和repartition
Intro 常用的重分区操作,简单记录下 coalesce 根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率。当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本 默认情况下,不shuffle 即增加分区数,没有变化 减少分区数,会把该分区数据增加到其他分区中,原有分区数据保持不变 import org.apache.spark.sql.SparkSession import org.apache.spark.rd原创 2021-11-18 15:15:09 · 1252 阅读 · 0 评论 -
Spark005---map、mapPartitions
Intro map、mapPartitions的使用和差异 map import org.apache.spark.sql.SparkSession val spark = SparkSession.builder().master("local[*]").getOrCreate() import org.apache.spark.sql.SparkSession spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSe原创 2021-11-17 14:17:23 · 1018 阅读 · 0 评论 -
Spark004-rdd分区逻辑
Info rdd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。 Code import org.apache.spark.sql.SparkSession val spark = SparkSession.builder().master("local[1]").getOrCreate() val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4) dataRDD.foreachPartition(part =>原创 2021-11-16 14:50:22 · 765 阅读 · 0 评论 -
Spark003-基础概念
Info spark一些基本概念,主要参考尚硅谷-Spark教程从入门到精通,美团《Spark性能优化指南——基础篇》。 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。 Driver 在 Spark 作业执行时主要负责: 将用户程序转化为作业(job) 在 Executor 之间调度任务(task) 跟踪 Executor 的执行情况 通过 UI 展示查询运行情况 python代码在集群执行时,纯python部分主要在driver处执行,p原创 2021-11-16 14:49:04 · 733 阅读 · 0 评论 -
Spark002---spark任务提交,传入json作为参数
提交spark任务时,需要传入json作为参数。遇到几个坑,记录下来: 原始json串,双引号加反斜杠\ 加反斜杠之后的json,最外侧加上双引号 结果如果有两个},即有嵌套json,连续的两个}之间要加上空格 看个例子: "{\"Code\":[\"12345\"],\"data\":{\"id\":\"502826143\"} }" 2021-05-24 于南京市江宁区九龙湖 ...原创 2021-05-24 20:25:04 · 292 阅读 · 0 评论 -
Spark001---yarn批量kill任务
— 删除所有ACCEPTED任务 for i in yarn application -list | grep -w ACCEPTED | awk '{print $1}' | grep application_; do yarn application -kill $i; done — 删除所有RUNNING任务 for i in yarn application -list | grep -w RUNNING | awk '{print $1}' | grep application_; do y原创 2020-10-15 10:38:42 · 2328 阅读 · 0 评论