![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 50
沸腾的可乐
Java工程师
展开
-
分享一个client模式spark程序
spark提交任务有client和cluster两种模式主要区别:是否将driver程序放在远程worker机器上执行。cluster模式由master挑选一个worker机器放置driver进程。client模式,也叫交互模式,任务提交后客户端一直保持连接,并即时获得运行的信息。cluster模式,也叫非交互模式,任务提交后由后台运行,关闭客户端不影响任务的执行,运行信息需要通过日志...原创 2018-04-07 16:26:17 · 715 阅读 · 0 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2018-04-03 17:54:13 · 445 阅读 · 0 评论 -
搭建Spark所遇过的坑
一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp...转载 2018-04-17 16:29:16 · 1027 阅读 · 0 评论 -
spark基本概念
spark应用涉及的一些基本概念: 1.mater:主要是控制、管理和监督整个spark集群2.client:客户端,将用应用程序提交,记录着要业务运行逻辑和master通讯。3.sparkContext:spark应用程序的入口,负责调度各个运算资源,协调各个work node上的Executor。主要是一些记录信息,记录谁运行的,运行的情况如何等。这也是为什么编程的时候必须要创建一个...转载 2018-04-17 17:06:47 · 441 阅读 · 0 评论 -
spark No more replicas available for rdd异常
运行一个客户端模式spark程序出现No more replicas available for rdd异常,如下:18-04-16 18:01:53,750 INFO [dag-scheduler-event-loop] o.a.s.s.DAGScheduler [Logging.scala:54] Resubmitted ShuffleMapTask(11, 507), so mark...原创 2018-04-17 17:52:02 · 14028 阅读 · 2 评论