自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 kafka核心原理及数据积压问题

磁盘查询策略: 顺序查找 和 随机查找 那个效率快呢?通过这种机制 可以保证数据不丢失, 但是可能存在重复消费的问题。如何实现点对点的消息模型 和 发布订阅的消息模型。如何提交偏移量信息呢?index文件中存储了什么?何为生产者的数据分发机制呢?

2023-04-01 17:47:10 808

原创 kafka介绍及消息队列

何为消息队列呢?消息: 本质上就是数据 , 而且这个数据存在一种流动状态, 从某一端传递到另一端队列: 本质上就是容器, 可以存储数据, 只不过这个容器具备 FIFO(先进先出) 特性消息队列: 指的就是 将消息数据放置到队列, 通过队列实现数据传输的特性, 从队列的一端写入, 从另一端输出, 保持FIFO特性​ kafka是一款消息队列的中间件的产品, 来源于领英公司, 后期将其贡献给了apache 目前是apache旗下的顶级来源项目, 采用语言是scala。

2023-04-01 16:37:25 414

原创 Hive SQL-DDL、DML

分桶表也是一种优化表,可以**减少join查询时笛卡尔积的数量**、提高抽样查询的效率。分桶表的字段必须是表中已有的字段;分桶表需要使用间接的方式才能把数据加载进入:insert+select在join的时候,针对join的字段进行分桶,可以提高join的效率 减少笛卡尔积数量。

2023-03-19 20:52:32 133

原创 数据仓库Apache Hive

Hive是Facebook开源出来,后来贡献给力Apache .宗旨是:提高分析数据的能力降低分析数据的开发成本。如果不一致,hive会尝试进行转换,但是不保证成功,如果不成功显示null。猜想1:只要在hive中创建表,那么在HDFS就会有一个文件夹与之对应。数仓本身不生产数据也不消费数据,按照数据流入流出的特点,对平台进行分层。最基础最核心的3层架构,企业实际应用中,可以结合需要添加不同分层。注意:在某些场合下,说ORACLE也是OLAP系统,如何理解?在此过程中,Hive做了什么?

2023-03-18 21:07:21 267 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除