For Learning-CSDN博客

原创 job提交文字叙述

1.客户端向resourcemanager提交job请求，申请资源2.resourcemanager向客户端返回一个 job_id以及共享资源路径hdfs/tmp3.客户端将共享资源放在共享资源路径下4.客户端向resourcemanager返回共享资源放置成功的响应，真正开始提交一样程序5.resourcemanager向客户端返回一个节点，运行mrappmaster nodemana...

2019-07-18 18:57:52 122

转载 spark执行流程

Spark运行流程看任何东西都是(知其然,再知其所以然), 我会先简单的介绍流程, 让初学者有个大概的概念,其中有...

2019-07-16 18:46:00 208

原创分批次批量提交数据

一个 MapReduce 任务只能包含一次 Map 和一次 Reduce,一个Spark 任务并不止包含一个Map 和一个Reduce，而是由一系列的Map、Reduce构成。这样，计算的中间结果可以高效地转给下一个计算步骤，提高算法性能Spark中最核心的概念是RDD(弹性分布式数据集),分布式数据集可以在不同的并行环境当中被重复使用,MapReduce这些并行计算大都是基于...

2019-07-12 21:05:55 833

转载 Spark job提交

本文基于spark2.111. 前言1.1 基本概念RDD关于RDD已经有很多文章了，可以参考一下理解...

2019-07-12 21:00:47 137

Spark 1.4.x版本以后，为Spark SQL和DataFrame引入了开窗函数，比如最经典，最常用的，row_number()，可以让我们实现分组取topn的逻辑。案例：统计每个种类的销售额排名前3的产品java版本package cn.spark.study.sql; import org.apache.spark.SparkConf;import org.apache.spark....

2019-07-12 20:58:02 268