江枫渔火R-CSDN博客

原创 kafka核心原理及数据积压问题

磁盘查询策略: 顺序查找和随机查找那个效率快呢?通过这种机制可以保证数据不丢失, 但是可能存在重复消费的问题。如何实现点对点的消息模型和发布订阅的消息模型。如何提交偏移量信息呢?index文件中存储了什么?何为生产者的数据分发机制呢?

2023-04-01 17:47:10 808

何为消息队列呢?消息: 本质上就是数据 , 而且这个数据存在一种流动状态, 从某一端传递到另一端队列: 本质上就是容器, 可以存储数据, 只不过这个容器具备 FIFO(先进先出) 特性消息队列: 指的就是将消息数据放置到队列, 通过队列实现数据传输的特性, 从队列的一端写入, 从另一端输出, 保持FIFO特性 kafka是一款消息队列的中间件的产品, 来源于领英公司, 后期将其贡献给了apache 目前是apache旗下的顶级来源项目, 采用语言是scala。

2023-04-01 16:37:25 414

原创 Hive SQL-DDL、DML

分桶表也是一种优化表，可以**减少join查询时笛卡尔积的数量**、提高抽样查询的效率。分桶表的字段必须是表中已有的字段；分桶表需要使用间接的方式才能把数据加载进入：insert+select在join的时候，针对join的字段进行分桶，可以提高join的效率减少笛卡尔积数量。

2023-03-19 20:52:32 133

原创数据仓库Apache Hive

Hive是Facebook开源出来，后来贡献给力Apache .宗旨是：提高分析数据的能力降低分析数据的开发成本。如果不一致，hive会尝试进行转换，但是不保证成功，如果不成功显示null。猜想1：只要在hive中创建表，那么在HDFS就会有一个文件夹与之对应。数仓本身不生产数据也不消费数据，按照数据流入流出的特点，对平台进行分层。最基础最核心的3层架构，企业实际应用中，可以结合需要添加不同分层。注意：在某些场合下，说ORACLE也是OLAP系统，如何理解？在此过程中，Hive做了什么？

2023-03-18 21:07:21 267 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_48986387的博客

原创 kafka核心原理及数据积压问题

原创 kafka介绍及消息队列

原创 Hive SQL-DDL、DML

原创数据仓库Apache Hive

空空如也

空空如也

原创 kafka核心原理及数据积压问题

原创 kafka介绍及消息队列

原创 Hive SQL-DDL、DML

原创 数据仓库Apache Hive

空空如也

空空如也

原创数据仓库Apache Hive