数据仓库项目
情深不仅李义山
路漫漫其修远兮,吾将上下而求索.
展开
-
数据仓库之搭建ODS(原始数据层)
ODS即原始数据层,它里面的数据都是原始的数据,不经过任何加工处理的,是原始的json格式数据,因为原始数据有两种数据:启动日志和事件日志,所以在gmall数据库下创建两个表ods_start_log和ods_event_log。前面我已经把数据采集到HDFS上了,现在只要创建好表格,把数据导入表格中即可。由于hivesql是基于MR的,而MR又比较慢,所以这里使用Tez,Tez是一个Hive的运行引擎,性能优于MR。执行同样的HQL,在Tez下效率会高很多,所以后面我都会使用这个运行引擎。建表语句:原创 2020-08-08 03:37:20 · 2928 阅读 · 2 评论 -
配置HA的mysql
今天做数据仓库这个项目因为用到了hive,把hive的元数据信息存到mysql里面,所以配置了一个mysql,先来说说HA的mysql是什么回事。先看一下图片:我这里配置的是一个双向主从的集群,双向主从的意思就是两台机器都有可能成为master和slave,他们对外只提供一个IP,这两台机器的数据会同步一致,这是怎么做到的呢?其实就是安装一个keepAlive,两台机器的keepAlive只有一个会占用这个虚拟IP,keepAlive定期向mysql进程发送心跳,如果当mysql进程宕掉了,keepAl原创 2020-08-07 23:24:10 · 625 阅读 · 0 评论 -
数据仓库之hiveserver2启动不了解决
hiveserver2是hive的一个服务端,把服务端开启后,可以在别的地方登录hive来操作hive。因为有一些比较长的hivesql在命令行打起来会有点不方便,所以使用一个工具来操作hive----DBeaver。本来用着好好的,突然重启了一下HDFS之后,hiveserver2突然启动不了了,什么提示也没报,如下所示:[hadoop@hadoop103 hive]$ hiveserver2 SLF4J: Class path contains multiple SLF4J bindings.S原创 2020-08-07 22:36:07 · 7395 阅读 · 0 评论 -
数据仓库之Hive与MySQL关系
Hive可以分析结构化数据,它提供了一种HiveSQL来帮助用户处理数据,HiveSQL会转化成MapReduce程序,因为MapReduce效率是基于磁盘的,所以效率会比较低。但是它在离线数据处理方面还是有优势的,可以处理数据量非常大的数据,所以数据仓库的离线部分还是会基于Hive做计算的。Hive与MySQL关系:在配置Hive之后一般都会安装和配置MySQL,那它们到底什么关系呢?如果默认不配置mysql的话,hive的元数据是存储在微型数据库Derby中,真正的数据是存储在HDFS上。先来说一下原创 2020-08-05 21:07:00 · 2634 阅读 · 0 评论 -
数据仓库之完整数据采集
数据仓库这个项目的数据采集部分主要分为两层,第一层就是用Flume通过tailDirSource把在/tmp/logs/下的数据采集到kafka中;第二层就是把在kafka中的数据采集到HDFS中。目前我已经做好了这两层的数据采集,现在来写一下具体过程:第一层数据采集第一层的数据采集通过Flume采集数据生成的目录下的数据,数据是在hadoop102和103生成的,所以第一层采集是在hadoop102和1hadoop103进行采集,具体的Flume配置文件如下:#a1是agent的名称,a1中定义原创 2020-08-05 16:23:11 · 934 阅读 · 0 评论 -
数据仓库项目之采集日志数据
数据采集整体架构如下图所示:更加详细的架构图:为什么要集成Flume+Kafka?可能很多人会跟我有相同的问题,这里采集数据为什么要集成Flume+Kafka?我通过搜集资料了解到:我们采集过来的数据,通常会进行存储或者是提供给Spark/Flink/Storm做实时处理的,但是由于Flume没有缓存,是直接采集数据的,当采集数据的速度大于处理速度的时候就会造成数据积压或者丢失,这时候Kafka就发挥作用了,Kafka是一个消息队列,它可以将数据缓存到内存或者写到磁盘上,有很好的缓冲效果,可以起原创 2020-08-01 03:34:39 · 544 阅读 · 0 评论 -
数据仓库概念和项目架构
最近跟着尚硅谷做一个数据仓库项目,想以此项目来检验自己过去这段时间学习大数据技术的成果并以此提升自己,通过文章的方式记录自己做项目的过程,在项目中遇到的问题及解决过程,我都会记录在文章中,希望同时能帮到更多有需要和一起学习的朋友们,同时非常感谢尚硅谷非常慷慨地免费分享学习教程,想要教程的朋友们也可以去尚硅谷官网领取哦!数据仓库概念先来看教程的定义:再来说说我自己的理解:数据仓库就是存储了非常大的数据量的一个仓库。首先,数据从哪来?数据来源可以是业务数据或者是用户行为数据。业务数据就是在网站或者原创 2020-07-31 12:34:59 · 887 阅读 · 0 评论