目录
一:项目来源:
参考项目:尚硅谷电商数据仓库2.0/3.0
参考书籍:大数据分析--数据仓库项目实战
参考视频:https://www.bilibili.com/video/BV1Hp4y1z7aZ?from=search&seid=8803428276557895543 (哔哩哔哩)
数仓项目总结2参考我的另一篇博客:https://blog.csdn.net/yezonghui/article/details/117391336 (接着这篇博客的总结)
二:数据仓库概念
2.1 业务数据
就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录,下单,支付等过程中产生的数据。业务数据通常存储在MySql中。
2.2用户行为数据
用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面点击,停留,评论,点赞,收藏等。用户行为数据通常存储在日志文件中。
2.3数据仓库结构图
三:项目需求及架构设计
3.1项目需求分析
1)用户行为数据采集平台搭建
2)业务数据采集平台搭建
3)数据仓库维度建模
4)分析用户,流量,会员,商品,销售,地区,活动等电商核心主题,统计的报表指标接近100个。
5)采用即席查询工具,随时进行指标分析。
6)对集群性能进行监控,发生异常需要报警
7)元数据管理
8)质量监控
3.2项目框架
3.2.1 技术选型
数据采集传输:Flume,Kafka,Sqoop
数据存储:Mysql,Hdfs
数据计算:Hive(引擎:Tez换成Spark)
数据查询:Presto,Druid,Kylin
数据可视化:Superset
任务调度:Azkaban
集群监控:Zabbix
元数据管理:Atlas
3.2.2 系统数据流程设计
3.2.3 框架版本选型
产品 | 版本 |
Hadoop | 3.1.3 |
Flume | 1.9.0 |
kafka | 2.4.1 |
HIve | 3.1.2 |
Sqoop | 1.4.6 |
Java | 1.8 |
zookeeper | 3.5.7 |
Presto | 0.189 |
3.2.4测试集群服务器规划
服务名称 |
子服务 |
服务器 hadoop102 |
服务器 hadoop103 |
服务器 hadoop104 |
HDFS |
NameNode |
√ |
|
|
DataNode |
√ |
√ |
√ |
|
SecondaryNameNode |
|
|
√ |
|
Yarn |
NodeManager |
√ |
√ |
√ |
Resourcemanager |
|
√ |
|
|
Zookeeper |
Zookeeper Server |
√ |
√ |
√ |