自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hive的一些问题总结

对于数据输出端:可以开启reduce端的输出文件合并,将多个小文件合并成为一个大文件,目的是减少hdfs的小文件数量. 原理是计算输出文件平均大小,若符合条件,则单独开启一个额外的任务进行合并.Join导致的数据倾斜:未经优化的join操作,默认是使用common join操作,如果关联字段的值分布不均匀,就会导致大量相同的key进入同一个reduce,从而导致数据倾斜.分组聚合导致的数据倾斜:分组字段的值分布均匀,就会导致大量相同的key进入同一个reduce,从而导致数据倾斜.

2023-08-24 11:51:47 117 1

原创 Kafka

传统定义:是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。最新定义:Kafka是一个开源的分布式事件流平台,用于高性能数据管道、流分析、数据集成和关键任务应用。

2023-08-24 11:33:18 86 1

原创 Flume

Flume知识点简略摘要

2023-08-23 20:17:10 42

原创 琐碎知识点总结

一个.class文件启动一个Java程序,一个Java程序对应一个进程。计算机的计算实际上就是利用资源(磁盘、内存、CPU、网络)对数据进行处理。设置休眠时间,当A空闲时,B或者C立马执行,也可以看做交叉执行。并行:有多个core,A和B或者A和C可以同时执行,但是B和C不可以同时执行。系统:完整的软件程序 例如:Hdfs、Kafka。串行:有多个线程,一个线程运行结束之后通知下一个线程运行。JVM被访问的时候,每个用户的请求就会采用一个线程处理。线程与core没关系,进程与core有关系。

2023-08-17 14:39:36 47 1

原创 Yarn工作机制

8、MRAppMaster读取job的信息,根据内容向ResourceManager申请MapTask容器 ,有几个切片就会生成几个MapTask。3、灵活性:如果队列中的资源有剩余,可以暂时共享给其他队列,但是如果本队列有资源需求,会立刻收回资源。11、资源回收,向RM申请容器,运行ReduceTask程序,Reduce向Map获取分区数据。1、多队列:每个队列可以配置一定的资源,但是每个队列单独采用的还是FIFO调度策略。3、客户端提交job需要的资源,放到对应的临时目录下。

2023-07-24 19:52:53 73

原创 Hadoop集群准备

hadoop集群建立

2023-07-20 11:24:21 38 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除