大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127

多刷亿点题⑧

已于 2023-11-28 09:33:22 修改

阅读量330

点赞数 5

文章标签：云原生数据仓库

于 2023-11-27 15:02:23 首次发布

本文链接：https://blog.csdn.net/weixin_62614440/article/details/134644021

版权

1 数据仓库概念

数据仓库定义（Data Warehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。

AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。

数据仓库VS传统数据存储
三大优势：

体量大，效率高
历史追查，时光回溯
数据可用性

原始数据分为以下三个部分：
日志采集系统（Jsonser）
业务系统数据库（MySQL）
爬虫系统等
👇
将这三部分数据源统一存放到数据仓库
👇
报表系统
用户画像
推荐系统
机器学习
风控系统

2.1 项目需求分析

采集业务数据库中数据（业务数据库：RDS，导入到DataWorks，进行数据分析）
数据仓库的搭建（在Hadoop里面核心的组件HDFS上嵌套使用Hive框架，用Hive框架创建不同分层的表格，作为数据仓库的整体结构）
分析统计业务指标（ADS层）
对结果进行可视化展示

RDS 业务数据库支持多种数据库引擎，包括 MySQL、PostgreSQL、Oracle 和 SQL
Server，以及各种数据库版本和数据库类型。

使用 RDS 业务数据库，您可以轻松地将可扩展性、可用性、安全性和管理负担交还给 AWS，专注于您的应用程序和服务的核心。RDS
业务数据库提供了一个高度可扩展、可靠性高、安全且易于管理的平台，可用于托管和运行关键应用程序。

RDS 业务数据库具有自动备份、自动恢复、安全传输和加密等功能，可确保您的数据始终可用且安全。RDS
业务数据库还提供了一个统一的管理界面，使您可以轻松地管理多个数据库实例。

2.2 阿里云技术框架

阿里云产品	简介	类比
MaxCompute	云原生大数据计算服务	Hadoop+Hive+调度器
DataWorks	大数据开发治理平台	DataX/Canal/DolphinScheduler/AirFlow/Azkaban/Atlas/Griffin
RDS	关系型数据库	Mysql
QuickBI	可视化数据展示工具	Tableau、Echarts、Kibana

系统数据流程设计：
RDS(业务数据）
👇
MaxCompute/DataWorkes
👇
RDS（分析结果）
👇
QuickBI

阿里云数仓的核心框架：MaxCompute（计算引擎）、DataWorkes（平台）
原始数据保存在RDS，保存的是业务数据。
分析出的结果到导回RDS

数据分析计算：
对数仓进行分层
ODS（Operational Data Store）原始数据层
👇数据建模
DWD（Data Warehouse Detail）明细数据层、DIM（Dimension）公告维度层
事实表（介绍业务流程本身，是动作）、维度表（业务流程所处的环境）
👇数据聚合
DWS（Data Warehouse Summary）汇总数据层
👇
ADS（Application Data Service）应用数据层

多刷亿点题⑧

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127

是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。数据仓库VS传统数据存储。
复制链接

扫一扫