数据仓库
文章平均质量分 70
一枚进阶码农
这个作者很懒,什么都没留下…
展开
-
Kafka学习之怎么保证不丢,不重复消费数据
Kafka作为当下流行的高并发消息中间件,大量用于数据采集,实时处理等场景,我们在享受它带来的高并发,高可靠等便利时,同时不得不面对可能存在的问题,最常见的就是丢包,重发问题。 1. 丢包问题 1.1 问题描述 所谓丢包一般是指发送方发送的数据未到达接收方. 常见的丢包可能发生在发送端, 网络,接收端. 例如,消息推送服务,每天早上,手机上各终端都会给用户推送消息,这时候流量剧增,可能会出现kafka发送数据过快,导致服务器网卡爆满,或者磁盘处于繁忙状态,可能会出现丢包现象。 1.2 问题解决 解决方原创 2021-05-10 19:23:46 · 487 阅读 · 0 评论 -
HBASE读写数据流程
一 写数据流程 1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。 2)访问对应的RegionServer,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的metacache,方便下次访问。 3)与目标RegionServer进行通讯; 4)将数据顺序写入(追加)到WAL; 5原创 2021-04-21 14:32:13 · 183 阅读 · 0 评论 -
数仓分层概述
概述 数仓分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用。 数据分层的作用 我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是数据分层。数据分层的好处有。 ①,清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。 ②,减少重复开发:规范数据分层,开发一些通用的中间层数据,能减少极大的重复计算。 ③,统一数据口径:通过数据分层提供统一的数据出口,同意对外输出的数据口径。 ④,复杂问题简单化:将一.原创 2021-04-21 10:33:27 · 970 阅读 · 0 评论