1 数据仓库概念
数据仓库定义(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。
AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。
数据仓库VS传统数据存储
三大优势:
- 体量大,效率高
- 历史追查,时光回溯
- 数据可用性
原始数据分为以下三个部分:
日志采集系统(Jsonser)
业务系统数据库(MySQL)
爬虫系统等
👇
将这三部分数据源统一存放到数据仓库
👇
报表系统
用户画像
推荐系统
机器学习
风控系统
2.1 项目需求分析
- 采集业务数据库中数据(业务数据库:RDS,导入到DataWorks,进行数据分析)
- 数据仓库的搭建(在Hadoop里面核心的组件HDFS上嵌套使用Hive框架,用Hive框架创建不同分层的表格,作为数据仓库的整体结构)
- 分析统计业务指标(ADS层)
- 对结果进行可视化展示
RDS 业务数据库支持多种数据库引擎,包括 MySQL、PostgreSQL、Oracle 和 SQL
Server,以及各种数据库版本和数据库类型。使用 RDS 业务数据库,您可以轻松地将可扩展性、可用性、安全性和管理负担交还给 AWS,专注于您的应用程序和服务的核心。RDS
业务数据库提供了一个高度可扩展、可靠性高、安全且易于管理的平台,可用于托管和运行关键应用程序。RDS 业务数据库具有自动备份、自动恢复、安全传输和加密等功能,可确保您的数据始终可用且安全。RDS
业务数据库还提供了一个统一的管理界面,使您可以轻松地管理多个数据库实例。
2.2 阿里云技术框架
阿里云产品 | 简介 | 类比 |
---|---|---|
MaxCompute | 云原生大数据计算服务 | Hadoop+Hive+调度器 |
DataWorks | 大数据开发治理平台 | DataX/Canal/DolphinScheduler/AirFlow/Azkaban/Atlas/Griffin |
RDS | 关系型数据库 | Mysql |
QuickBI | 可视化数据展示工具 | Tableau、Echarts、Kibana |
系统数据流程设计:
RDS(业务数据)
👇
MaxCompute/DataWorkes
👇
RDS(分析结果)
👇
QuickBI
阿里云数仓的核心框架:MaxCompute(计算引擎)、DataWorkes(平台)
原始数据保存在RDS,保存的是业务数据。
分析出的结果到导回RDS
数据分析计算:
对数仓进行分层
ODS(Operational Data Store) 原始数据层
👇数据建模
DWD(Data Warehouse Detail)明细数据层、DIM(Dimension)公告维度层
事实表(介绍业务流程本身,是动作)、维度表(业务流程所处的环境)
👇数据聚合
DWS(Data Warehouse Summary)汇总数据层
👇
ADS(Application Data Service)应用数据层