Rosy Clouds丶霞-CSDN博客

原创 sqoop优化

Kakfa是如何保证分区内有序的？两种方案：方案一，kafka topic 只设置一个partition分区方案二，producer将消息发送到指定partition分区方案一：kafka默认保证同一个partition分区内的消息是有序的，则可以设置topic只使用一个分区，这样消息就是全局有序，缺点是只能被consumer group里的一个消费者消费，降低了性能，不适用高并发的情况方案二：既然kafka默认保证同一个partition分区内的消息是有序的，则producer可以在发

2021-09-18 11:59:31 318 1

原创 Hadoop相关面试题

∏∏∏首先在文章的开头先慰问一下我床头的申婷婷，希望它能够好好看一看我自己写的博客，能让他未来有一个好的归宿。Begin~~~~ 开始前放一个我喜欢的小姐姐，养养眼再开始学习什么是Hadoop？Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容：Hdfs，MapReduce，YarnHadoop在广义上指一个生态圈，泛指大数据技术相关的开源组件或产品，如HBase，Hive，Spark，Zookeeper，Kafka.

2021-09-03 21:05:37 220

原创 MapReduce中的shuffle

霞给的烈酒，给的温柔，最后的最后，不过是一场梦~ shuffle的定义简单来说可以是洗牌，可以理解为一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件。在MapReduce中的shuffle分为map端与reducer端，以下是对shuffle的一些详述：Map端的ShuffleMap的输出结果首先被缓存到内存，当缓存区（环状缓冲区）达到80% （默认大小为100MB），就会启动溢写操作，当前启动..

2021-09-03 11:32:18 896

原创 Hive相关面试题（寻不见的霞）

什么是Hive？Hive 是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL 查询功能。本质是：将HQL 转化成MapReduce 程序简述Hive主要架构及解析成MR的过程 Hive通过给用户提供一系列交互接口，接收到用户的指令(sql语句)，结合元数据，经过Driver内的解析器，编译器，优化器，执行器转换成mapreduce，提交给hadoop中执行，最后将执行返回的结果输出到用户交互接口1）Hive 处理的数据存储在HDFS...

2021-08-30 20:03:29 185

原创 Hive数据倾斜

关于hive数据倾斜的问题，一直是我们老生常谈的问题，那么如何能把这个问题回答的富有逻辑性并且较为全面的，是需要好好去整理和归纳自己的思路的。毕竟产生数据的场景不同，相应的我们的解决办法也会有所不同。当然要适当的去举实际场景中的例子增加我们对理论的融会贯通程度。主要分为map端倾斜和reduce端倾斜，map端倾斜主要是因为输入文件大小不均匀导致，造成部分数据大量的集中在某一个节点上，形成了数据热点，导致这一节点运行时间远远大于其他节点的时间，reduce端主要是partition不...

2021-08-30 18:52:12 261

原创 Kafka为什么依赖Zookeeper？

前言：在我们了解kafka为什么依赖zookeeper之前，首先要先知道zookeeper自身的一个基础架构和作用“所有一切的努力都是为了自己的名字”Zookeeper概念扫盲基本概述ZooKeeper是一个分布式协调服务，它的主要作用是为分布式系统提供一致性服务数据结构ZooKeeper的数据存储也同样是基于节点，这种节点叫做Znode。每一个Znode里包含了数据、子节点引用、访问权限等.data即Znode里面的数据 ACL为权限规则，它规定了哪些用户或哪些IP才有.

2021-08-27 15:07:39 6765 4

原创 KafKa相关面试题（自行总结）

努力学习都是为了自己的名字有一个好的归宿。加油！“士由百折不挠之真心，方有万变无穷之妙用”为本次kafka专栏做一个强化记忆专栏，都是自己看完以后理解，用尽量最少的语言对问题进行解答，第一次发表文章，难免有考虑不周的地方，还请见谅。kafka的基本架构基础概念扫盲Producer消息生产者，是消息的产生源头，负责生成消息并发送给KafkaConsumer消息消费者，是消息的使用方，负责消费Kafka服务器上的消息Topic主题，由用户自定义，并配置在Kafka服务器，.

2021-08-26 17:08:08 624 5

zz06251998的博客