![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
zengxianglei
曾经 年少 爱追梦, 一心 只想 往前飞 。。。
展开
-
spark 安装入门(一)scala spark单词统计 ; java spark单词统计spark反转排序
spark 安装入门 这篇博客 可以让你学习到 三点 知识: 1.熟悉spark的相关概念。 2.搭建一个spark集群。 3.编写简单的spark应用程序。 spark是一个针对于大规模数据处理的统一分析引擎。 为什么要学spark? 一句话:spark处理速度比mapreduce快很多。 具体快的原因: Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spa...原创 2019-05-25 17:00:30 · 1987 阅读 · 0 评论 -
spark(二) rdd具体介绍
spark(二) rdd具体介绍 看完这篇 你可以学到一下内容 1:掌握RDD的原理 2:熟练使用RDD的算子完成计算任务 3:掌握RDD的宽窄依赖 4:掌握RDD的缓存机制 5:掌握划分stage 6:掌握spark的任务调度流程 rdd是什么呢? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、...原创 2019-06-09 18:08:26 · 1587 阅读 · 0 评论 -
Spark中Standalone的两种提交模式(Standalone-client模式与Standalone-cluster模式)
Spark中Standalone的两种提交模式(Standalone-client模式与Standalone-cluster模式) 一.Standalone-client提交任务方式 执行流程 1.client模式提交任务后,会在客户端启动Driver进程。 2.Driver会向Master申请启动Application启动的资源。 3.资源申请成功,Driver端将task发送到worker端执...原创 2019-07-02 09:39:55 · 685 阅读 · 0 评论 -
spark队列 实现分配资源(实时流)
spark队列 实现分配资源(实时流) 学习地址:https://www.cnblogs.com/xiaodf/p/6266201.html 前言 :为什么要 使用队列 来分配资源? 首先你要了解 yarn的三种调度器。我的一篇博客中已经写了。 然后,由于是实时流 所以是实时的,不是直接在spark-master 或者spark-shell 分配资源就可以了。所以我们需要用一个队列 来分配资源 ...原创 2019-06-25 00:54:37 · 1920 阅读 · 0 评论