- 博客(10)
- 收藏
- 关注
原创 job提交文字叙述
1.客户端向resourcemanager提交job请求,申请资源2.resourcemanager向客户端返回一个 job_id以及共享资源路径hdfs/tmp3.客户端将共享资源放在共享资源路径下4.客户端向resourcemanager返回共享资源放置成功的响应,真正开始提交一样程序5.resourcemanager向客户端返回一个节点,运行mrappmaster nodemana...
2019-07-18 18:57:52 122
原创 分批次批量提交数据
一个 MapReduce 任务只能包含一次 Map 和一次 Reduce,一个Spark 任务并不止包含一个Map 和一个Reduce,而是由一系列的Map、Reduce构成。这样,计算的中间结果可以高效地转给下一个计算步骤,提高算法性能Spark中最核心的概念是RDD(弹性分布式数据集),分布式数据集可以在不同的并行环境当中被重复使用,MapReduce这些并行计算大都是基于...
2019-07-12 21:05:55 833
转载 热门商品求top3
Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。案例:统计每个种类的销售额排名前3的产品java版本package cn.spark.study.sql; import org.apache.spark.SparkConf;import org.apache.spark....
2019-07-12 20:58:02 268
转载 Spark Stage 划分原理
RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务...
2019-07-06 09:40:26 812
转载 Statement和pepareStatement区别,用法
转自:http://blog.csdn.net/QH_JAVA/article/details/48245945一、prepareStatement 的用法和解释1.PreparedStatement是预编译的,对于批量处理可以大大提高效率. 也叫JDBC...
2019-06-22 10:40:35 1039
转载 单例模式之懒汉式与饿汉式
单例模式所谓单例模式,就是保证类在内存中只有一个对象而如何保证类在内存中只有一个对象?思考一下,我们平时在实例化类的对象时,基本都是通过new 的方式来实例化一个对象,其实说白了,就是调用了需要实例化类的默认的构造方法,所以为了保证类只有一个对象,我们需要将...
2019-06-12 20:45:23 113
转载 scala伴生类与伴生对象分析
object AccompanyObject { def main(args: Array[String]): Unit = { println(ScalaPerson.sex) //true 在底层等价于 ScalaPerson$.MODULE$.s...
2019-06-12 20:32:38 805
转载 用户画像分析
版权声明:本文为博主原创文章,未经博主允许不得转载。违者必究,究也没用! https://blog.csdn.net/young_0609/article/details/84957956 </div> <link rel="stylesheet" href="https://csdnim...
2019-06-12 09:04:46 5510
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人