自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Spark:reduceByKey与groupByKey进行对比

两者不同之处:返回值类型不同:reduceByKey返回的是RDD[(K, V)],而groupByKey返回的是RDD[(K, Iterable[V])],举例来说这两者的区别。比如含有一下数据的rdd应用上面两个方法做求和:(a,1),(a,2),(a,3),(b,1),(b,2),(c,1);reduceByKey产生的中间结果(a,6),(b,3),(c,1);而groupByKey产生的中间结果结果为((a,1)(a,2)(a,3)),((b,1)(b,2)),(c,1),(以上结果为一个分.

2021-07-20 15:25:52 253

转载 MapReduce中的排序

一、排序概述1、在MapReduce的shuffle过程中执行了三次排序,分别是:map的溢写阶段:根据分区以及key进行快速排序map的合并溢写文件:将同一个分区的多个溢写文件进行归并排序,合成大的溢写文件reduce输入阶段:将同一分区,来自不同map task的数据文件进行归并排序2、在MapReduce整个过程中,默认是会对输出的KV对按照key进行排序的,而且是使用快速排序。map输出的排序的,其实也就是上面的溢写过程中的排序。reduce输出的排序,即reduce处理完数据后,

2021-07-19 17:13:16 1040

原创 sql笔记

order by:后面跟的是字段,表示你选择的字段,也可以是字段对应的数字,比如order by 1,3DEPTNO ENAME SAL------ ---------- ----------20 SMITH 8001,3对应的字段分别是DEPTNO,SAL修改数据库表中的信息,使用update关键字。3.在mysql中最该数据时会出现Error Code: 1175. You are using safe update mode and you tried...

2021-07-19 17:08:10 113

转载 Flink之checkpoint详解

checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个CheckpointCoordinator(检查点协调器),CheckpointCoordinator全权负责本应用.

2021-07-14 17:50:45 1776

转载 hive常见优化方法总结

1,使用关键字 EXPLAIN 或者 EXPLAIN EXRENDED ,在要执行的sql语句前面加关键字,不执行语句,可以用来查看语法树2,使用limit限制的调整,一般使用limit其实还是全表扫描,所以可以修改配置 <property><name> hive.limit.optimize.enable</name><value> true</value></property>3,在数据量少的情况...

2021-07-14 14:17:34 281

原创 Hive常见面试题汇总

一、Hive架构介绍。遇到这类问题,可以灵活的去回答,比如可以结合平时使用hive的经验作答,也可以结合下图从数据的读入、解析、元数据的管理,数据的存储等角度回答:1.Meta Store

2021-07-14 10:57:27 2786

转载 Flink之 Flink 窗口、时间和水位线详解

前言:Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水位线”。1.Flink 的窗口和时间1.1根据窗口数据划分的不同,目前 Flink 支持如下 3 种:滚动窗口,窗口数据有固定的大小,窗口中的数据不会叠加。1.2滑动窗口,窗口数据有固定的大小,并且有生成间隔,窗口数据有叠加。1.3会话窗口,窗口数据没

2021-07-13 12:15:23 1876

转载 hive数据库设计中的拉链表、增量表、全量表详解

1)存量、流量、增量存量:系统在某一时间点所存有的全部数据量;流量:是指在某一段时间内流入/出系统的数量;增量:是指在某一段时间内系统中保有数量的变化;增量=流入量—流出量本期期末存量=上期期末存量+本期内增量;2)拉链表:注意事项(1)记录一个事物从开始,一直到当前状态的所有变化的信息;(2)拉链表每次上报的都是历史记录的最终状态,是记录在当前时刻的历史总量;(3)当前记录存的是当前时间之前的所有历史记录的最后变化量(总量);(4)存...

2021-07-11 20:57:46 929

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除