大数据开发
文章平均质量分 88
大数据开发
天寒白
正在努力中...
展开
-
kafka流动的数据之河Ⅰ
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标。其持久化层本质上是一个**“按照分布式事务**和其他消息队列相比,Kafka的优势在哪里?原创 2024-02-15 15:42:54 · 1396 阅读 · 1 评论 -
Sqoop魔法入门:从零到一,避免数据导入的烦恼
Sqoop提供了一种增量导入数据的机制,允许你根据某个列的值来追踪变化,并只导入该列值大于上次导入时的最大值的数据。对于没有自增字段的表,你可以选择一个适合的列作为增量导入的依据。选项,将 HDFS 中的数据先导入到辅助表中,当 HDFS 中的数据导出成功后,辅助表中的数据在一个事务中导出到目标表中(也就是说,这个过程要么完全成功,要么完全失败)需要注意的是,Sqoop在将数据从MySQL导入到HBase时,会将MySQL的行映射到HBase的行,并将每个MySQL表的列映射到HBase的列族中的列。原创 2024-01-28 17:26:14 · 729 阅读 · 1 评论 -
Zookeeper:分布式系统的指挥家
ZAB(ZooKeeper Atomic Broadcast原子广播)协议是为分布式协调服务ZooKeeper框架专门设计的一种支持崩溃恢复的原子广播协议。在ZooKeeper中,主要依赖ZAB协议来实现分布式数据一致性,基于ZAB协议,ZooKeeper实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。ZAB协议包括两种基本的模式:消息广播、崩溃恢复。Paxos算法,是一种基于消息传递且具有高度容错性的一致性算法。原创 2024-01-28 11:03:17 · 1046 阅读 · 1 评论 -
Hadoop从入门到宕机
Hadoop是一个开源的分布式计算框架,用于。原创 2024-01-26 21:07:03 · 1677 阅读 · 1 评论 -
掌握Hive:从入门到精通的知识总结
Hive知识点较为全面的总结原创 2024-01-25 20:45:21 · 824 阅读 · 0 评论 -
数据仓库(对比数据库,数据湖)
数据湖是一种存储数据的系统,使用自然格式储存大型二进制对象或文件。它集中存储企业内各种来源的数据,包括原始副本和经过转换的数据,如用于报表、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文件、PDF)和二进制数据(如图像、音频、视频)。物理上,数据湖是一个数据存储平台,用于集中存储大量多源多类型的企业数据,并支持快速加工和分析。常见的部署技术包括Hadoop,但并非指特定的Hadoop集群。原创 2024-01-25 20:47:11 · 367 阅读 · 0 评论 -
数仓开发分层
数据仓库分层及其命名要点原创 2024-01-24 23:29:19 · 860 阅读 · 0 评论