![](https://img-blog.csdnimg.cn/2019121522451115.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
★★★Spark
文章平均质量分 52
spark
维格堂406小队
人天生都是软弱的,唯其软弱而犹能承担起苦难,才显出人的尊严。
展开
-
Spark006---coalesce和repartition
Intro常用的重分区操作,简单记录下coalesce根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率。当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本默认情况下,不shuffle即增加分区数,没有变化减少分区数,会把该分区数据增加到其他分区中,原有分区数据保持不变import org.apache.spark.sql.SparkSessionimport org.apache.spark.rd原创 2021-11-18 15:15:09 · 1266 阅读 · 0 评论 -
Spark005---map、mapPartitions
Intromap、mapPartitions的使用和差异mapimport org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().master("local[*]").getOrCreate()import org.apache.spark.sql.SparkSessionspark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSe原创 2021-11-17 14:17:23 · 1034 阅读 · 0 评论 -
Spark004-rdd分区逻辑
Infordd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。Codeimport org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().master("local[1]").getOrCreate()val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4)dataRDD.foreachPartition(part =>原创 2021-11-16 14:50:22 · 771 阅读 · 0 评论 -
Spark003-基础概念
Infospark一些基本概念,主要参考尚硅谷-Spark教程从入门到精通,美团《Spark性能优化指南——基础篇》。DriverSpark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责:将用户程序转化为作业(job)在 Executor 之间调度任务(task)跟踪 Executor 的执行情况通过 UI 展示查询运行情况python代码在集群执行时,纯python部分主要在driver处执行,p原创 2021-11-16 14:49:04 · 736 阅读 · 0 评论 -
Spark002---spark任务提交,传入json作为参数
提交spark任务时,需要传入json作为参数。遇到几个坑,记录下来:原始json串,双引号加反斜杠\加反斜杠之后的json,最外侧加上双引号结果如果有两个},即有嵌套json,连续的两个}之间要加上空格看个例子:"{\"Code\":[\"12345\"],\"data\":{\"id\":\"502826143\"} }" 2021-05-24 于南京市江宁区九龙湖...原创 2021-05-24 20:25:04 · 312 阅读 · 0 评论 -
Spark001---yarn批量kill任务
— 删除所有ACCEPTED任务for i in yarn application -list | grep -w ACCEPTED | awk '{print $1}' | grep application_; do yarn application -kill $i; done— 删除所有RUNNING任务for i in yarn application -list | grep -w RUNNING | awk '{print $1}' | grep application_; do y原创 2020-10-15 10:38:42 · 2362 阅读 · 0 评论