数据分析:数据同步
一、数据同步
1.1 中间件Sqoop
Sqoop连接数据的两端,左边是我们比较常用的业务数据库,右边是大数据的组件,Sqoop作为顶级的数据同步中间件,可以实现数据的双向流动,后面会介绍在Docker中具体容器中实行Sqoop的配置、执行命令。
1.2 数据同步架构1.0
背景:第一步建立数据仓库,数据仓库建模的时候,未经过任何加工处理的原始的数据层称之为ODS,最原始的输入数据,对于业务的DB数据一般存储于MySQL,当我们采集完之后需要导入到Hive当中。如果准备高效地将MySQL数据同步到Hive当中,一般是批量地采集数据,然后load到hive当中,优点是实现起来很简单,但是随着业务规模发展,select一张表耗时较久,产生慢查询,而且Hive不支持更新、删除等原语。