1,数据仓库介绍

2,数据仓库架构图

3,数据流程图

数据仓库与数据库 对比


常见的业务场景下的数据仓库产品

数据ETL流程

数据操作层

数据应用层

EMR弹性计算集群
1,框架选择

2数据同步基本原则
1,全量同步
数据量不大;工具有Sqoop
2,增量同步
数据量非常大的;Kafka,Flink CDC
2.1,增量同步工具,通过MySQL binlog日志同步

本文介绍了数据仓库的基本概念,包括数据仓库的架构图和数据流程图。对比了数据仓库与传统数据库的区别,并列举了在常见业务场景下使用的数据仓库产品。重点讨论了数据ETL流程,特别是全量同步(如Sqoop)和增量同步(如Kafka和FlinkCDC)的工具和策略,以及如何利用MySQLbinlog进行增量同步。此外,提到了数据操作层和数据应用层的重要性,以及EMR弹性计算集群在处理大数据时的角色。






数据ETL流程




1,全量同步
数据量不大;工具有Sqoop
2,增量同步
数据量非常大的;Kafka,Flink CDC
2.1,增量同步工具,通过MySQL binlog日志同步

3085
3227
1104
1032
5274

被折叠的 条评论
为什么被折叠?