![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
笨鸟的平凡之路
这个作者很懒,什么都没留下…
展开
-
笨鸟的平凡之路-浅谈spark集群运行的两种模式
spark集群运行的两种模式:yarn-cluster和yarn-client在说yarn-cluster和yarn-client之前,首先大家得知道不管是哪种模式,都是基于yarn来的.在hadoop2.X版本引进yarn之后,为了减轻了在1.X版本的JobTrack和TaskTrack的压力,增加了ResourceManager和NodeManager的概念.JobTracker中的资源管理...原创 2019-05-29 16:10:28 · 217 阅读 · 0 评论 -
笨鸟的平凡之路-Spark之开发调优
1.避免创建重复的RDD.一个RDD生成后,之后若再对该RDD重新操作时,推荐不要再重新生成了.2.尽可能复用同一个RDD如果RDD1是<key,value>类型,RDD2是类型,并且RDD1中的value是由RDD2中的value而来,那么建议只使用RDD1,不建议利用RDD1再生成RDD2.但是这样RDD1还是被计算了两次,所以一般结合3-持久化的方式进行进一步调优.3.对...原创 2019-07-15 15:45:09 · 148 阅读 · 0 评论 -
笨鸟的平凡之路-Spark之资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...原创 2019-07-15 16:22:17 · 124 阅读 · 0 评论 -
笨鸟的平凡之路-Spark之数据倾斜处理
现象1.在执行任务的时候,绝大多数task执行的速度还是特别快,有少数task执行的速度特别慢.2.原本能够正常执行的作业,突然有一天OOM,观察异常栈,是我们写的业务代码造成的.(很少见)原理在发生shuffle的过程中,各个节点上相同的key拉取到某一个节点上的一个task去处理,此时如果某个key的数量特别大的话,就会发生数据倾斜.比如,一些key的条数只有10条,某一个key有1...原创 2019-07-16 13:55:07 · 161 阅读 · 0 评论