Spark
Spark
2.wa
https://review-notes.top 技术博客
展开
-
Spark WordCount 代码执行过程解析
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. WordCount 代码示例2. 运行前的准备3. Stage 的切分4. Task 提交5. 任务计算6. 结果返回1. WordCount 代码示例object WordCount { def main(args: Array[String]): Uni...原创 2020-02-16 22:37:24 · 415 阅读 · 0 评论 -
Spark 部署模式
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1.部署模式1.1.本地部署模式1.2.Standalone 部署模式1.3.On-Yarn 部署模式2. 任务提交流程2.1.Standalone 模式2.2.On-Yarn 模式2.3.Yarn-Client 和 Yarn-Cluster 的区别1.部署模式1.1...原创 2020-02-16 22:36:40 · 406 阅读 · 0 评论 -
Spark Partitioner 分区机制解析
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. 什么是分区2. 分区方式1.HashPartitioner2.RangePartitioner3. 如何设置合理的分区数1. 什么是分区RDD 是一个分布式的数据集,会存放很大量的数据,一个 RDD 是由若干个分区组成的,对 RDD 进行的各种操作,实际上就是对...原创 2020-02-16 22:35:46 · 564 阅读 · 0 评论 -
Spark 内存管理-内存划分
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1、前言2、堆内存和堆外内存3、内存划分3.1 相关参数3.2 内存划分示意图4、相关源码解读4.1 UnrollMemory 理解参考1、前言spark 内存管理源码说明spark-core jar 中 org.apache.spark.memory 负责内存管...原创 2020-02-16 22:35:00 · 771 阅读 · 0 评论 -
Spark 共享变量、广播变量、累加器
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. 什么是共享变量2. 广播变量2.1.什么是广播变量2.2.如何使用广播变量3. 累加器3.1.什么是累加器3.2.如何使用累加器1. 什么是共享变量默认情况下,在一个对 RDD 操作的算子中如果使用到了外部 Driver 端定义的变量,这些变量将会被发送到每一个...原创 2020-02-16 22:34:18 · 441 阅读 · 0 评论 -
Spark Shuffle 机制解析
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. 什么是 Shuffle2. Shuffle 管理器的发展史3. SortShuffleManager 解析3.1.普通机制解析3.2.bypass 机制解析3.3.bypass 机制开启条件4. SortShuffleManager 两种机制的区别1. 什么是 S...原创 2020-02-16 22:33:09 · 415 阅读 · 0 评论 -
Spark RDD 介绍
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. 什么是 RDDRDD 的五个主要特性初始化 RDD操作 RDD闭包问题2. Stage 划分宽依赖与窄依赖如何划分 Stage3. RDD 的缓存cache 和 persist 的区别cache 和 checkPoint 的区别persist 和 checkPoin...原创 2020-02-16 22:31:58 · 477 阅读 · 0 评论 -
Spark 入门介绍
专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。文章目录1. 简介Spark 的身世Spark 特性Spark 针对 Hadoop-MR 做的改进2. 运行时组件DriverMasterWorkerExecutor3. 编程模型SparkContextSparkConfSparkEnvRDDDAGDAGSchedulerSta...原创 2020-02-16 22:29:48 · 318 阅读 · 0 评论 -
SparkStreaming maxmind-GeoLite2 第三方对象序列化问题
参考内容Using thirdparty not serializable object in Spark streaming transformationsSpark 任务报错内容Caused by: java.io.IOException: unexpected exception typeat java.io.ObjectStreamClass.throwMiscExc...原创 2017-10-01 15:06:52 · 1527 阅读 · 0 评论 -
Spark-StructuredStreaming checkpointLocation分析、优化耗时
目录1 问题描述2 分析 checkpointLocation 配置2.1 checkpointLocation 在源码调用链2.2 MetadataLog(元数据日志接口)3 分析 checkpointLocation 目录内容3.1 offsets 目录3.2 commitLog 目录3.3 metadata 目录3.4 sources 目录3.5 sinks 目...原创 2019-11-21 16:29:28 · 3490 阅读 · 3 评论 -
Spark-StructuredStreaming MultipleQuery(MultipleStreams)
文档 structured-streaming-programming-guide需求描述多个 Input Source 输出到各自对应的 Output Sink多个 Input Source 合并后输出到对应的 Output Sink实现示例:多个 Input Source 输出到各自对应的 Output Sinkobject MultipleQuery { /** 每个 D...原创 2019-07-05 16:12:05 · 404 阅读 · 0 评论 -
Spark-Job OutOfMemoryError: Java heap space 内存溢出排查
问题描述Spark-streaming job 实时任务数据清洗,将 A 结构数据清洗为标准 B 结构,流程为 读取 kafka-> 清洗、IP 识别、添加字段-> kafka。任务提交后运行一段时间 executor 被 kill,查看 yarn 日志均无被 kill 详情日志。排查-JVM 调优(未解决)GC 参数调优查看 spark-UI 发现 task-GC 时间较长...原创 2019-06-25 16:45:40 · 2340 阅读 · 0 评论 -
Spark-StructuredStreaming 写入 elastic 动态索引
Spark Structured Streaming 写入 elastic 动态索引支持测试用例原创 2019-05-24 16:30:37 · 1288 阅读 · 0 评论