大数据
文章平均质量分 91
Licheng Xu
Master student of University Malaya - Software Engineering
展开
-
数据分析:数据同步
数据分析:数据同步 一、数据同步1.1 中间件SqoopSqoop连接数据的两端,左边是我们比较常用的业务数据库,右边是大数据的组件,Sqoop作为顶级的数据同步中间件,可以实现数据的双向流动,后面会介绍在Docker中具体容器中实行Sqoop的配置、执行命令。1.2 数据同步架构1.0背景:第一步建立数据仓库,数据仓库建模的时候,未经过任何加工处理的原始的数据层称之为ODS,最原始的输入数据,对于业务的DB数据一般存储于MySQL,当我们采集完之后需要导入到Hive当中。如果准备高效地将My原创 2020-05-25 18:24:21 · 603 阅读 · 1 评论 -
数据分析:大数据环境安装(docker+docker-compose+spark+hadoop+hive)
大数据环境安装VirtualBox虚拟机下载地址:https://www.virtualbox.org/wiki/DownloadsVagrant下载地址:https://www.vagrantup.com/downloads.html图形界面操作步骤可参考:http://drupalchina.cn/book/export/html/6389ubantu:https://ubuntu.com/#download一、VirtualBox创建虚拟机(其他步骤为默认)修改好需要存放的地址将内原创 2020-05-22 23:33:48 · 2061 阅读 · 4 评论