企业数据仓库搭建学习之一-数据仓库知识汇总

本文介绍了数据仓库的基本概念,包括数据仓库的架构图和数据流程图。对比了数据仓库与传统数据库的区别,并列举了在常见业务场景下使用的数据仓库产品。重点讨论了数据ETL流程,特别是全量同步(如Sqoop)和增量同步(如Kafka和FlinkCDC)的工具和策略,以及如何利用MySQLbinlog进行增量同步。此外,提到了数据操作层和数据应用层的重要性,以及EMR弹性计算集群在处理大数据时的角色。
摘要由CSDN通过智能技术生成

1,数据仓库介绍

2,数据仓库架构图

3,数据流程图 

数据仓库与数据库 对比

 

常见的业务场景下的数据仓库产品

数据ETL流程

数据操作层

 数据应用层

EMR弹性计算集群

1,框架选择

2数据同步基本原则

1,全量同步

数据量不大;工具有Sqoop

2,增量同步

数据量非常大的;Kafka,Flink CDC

2.1,增量同步工具,通过MySQL binlog日志同步

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值