大数据复习
司徒宇恒
我们都是小怪兽
展开
-
3万字细品数据倾斜
一、前言 1.1 绪论 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 1.2 郑重声明 话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。 有些例子不是特别严谨,一...转载 2019-12-19 15:38:14 · 175 阅读 · 0 评论 -
Spark SQL 与HQL的区别
一、什么是 Spark SQL? (官方定义) Spark SQL A Spark module for structured data processing(known set of fields for each record - schema) ; Spark SQL是Spark中专门用来处理结构化数据(每一行数据都遵循Schema信息 —— 建表时表的字段及其 ...转载 2019-12-19 15:15:54 · 3354 阅读 · 0 评论 -
RDD DataSet DataFrame的定义和区别
RDD、DataFrame和DataSet的定义 在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Datasets的定义: Spark RDD RDD代表弹性分布式数据集。它是记录的只读分区集合。 RDD是Spark的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。 Spark Dataframe ...转载 2019-12-19 15:02:08 · 159 阅读 · 0 评论 -
HIVE-数据仓库
转自: https://www.cnblogs.com/sdifens/p/10297625.html 1.1.1 hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: hive本身不提供数据存储功能,使用HDFS做数据存储; hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序; hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来...转载 2019-12-19 14:23:39 · 165 阅读 · 0 评论 -
JVM垃圾回收机制
一、 技术背景你要了解吧 按照套路是要先装装X,谈谈JVM垃圾回收的前世今生的。说起垃圾回收(GC),大部分人都把这项技术当做Java语言的伴生产物。事实上,GC的历史比Java久远,早在1960年Lisp这门语言中就使用了内存动态分配和垃圾回收技术。设计和优化C++这门语言的专家们要长点心啦~~ 二、 哪些内存需要回收? 猿们都知道JVM的内存结构包括五大区域:程序计数器、虚拟机栈、本地方法栈、...转载 2019-12-17 11:23:02 · 118 阅读 · 0 评论 -
Spark必背面试题
1,spark的工作机制 用户在客户端提交作业后,会由Driver运行main方法并创建SparkContext上下文, SparkContext向资源管理器申请资源, 启动Execotor进程, 并通过执行rdd算子,形成DAG有向无环图,输入DAGscheduler, 然后通过DAGscheduler调度器, 将DAG有向无环图按照rdd之间的依赖关系划分为几个阶段,也就是stage, 输入t...转载 2019-12-17 10:49:55 · 296 阅读 · 0 评论 -
Flink on yarn的部署
1.环境变量配置 若要在Yarn上运行Flink应用,必须事先告诉Flink和yarn有关的配置。需要怎么告诉Flink呢? 提交Flink任务的client端必须要设置YARN_CONF_DIR或者HADOOP_CONF_DIR环境变量,通过这个环境变量来读取YARN和HDFS的配置信息,否则提交任务会失败。 2.提交Flink任务到yarn的两种方式 同时启动Yarn applicatio...转载 2019-12-17 10:30:02 · 467 阅读 · 0 评论 -
智联面试题
1.Flink的架构 JobManagers- 所谓Master ,负责协调分布式任务执行。 负责调度任务,协调checkpoint,协调故障恢复等。 There is always at least one Job Manager. A high-availability setup will have multiple JobManagers, one of which one is a...原创 2019-12-12 19:46:35 · 525 阅读 · 0 评论