大数据MaxCompute教程(阿里云离线数仓项目)学习笔记20231127

1 数据仓库概念

数据仓库定义(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。

AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。

数据仓库VS传统数据存储
三大优势:

  1. 体量大,效率高
  2. 历史追查,时光回溯
  3. 数据可用性

原始数据分为以下三个部分:
日志采集系统(Jsonser)
业务系统数据库(MySQL)
爬虫系统等
👇
将这三部分数据源统一存放到数据仓库
👇
报表系统
用户画像
推荐系统
机器学习
风控系统

2.1 项目需求分析

  1. 采集业务数据库中数据(业务数据库:RDS,导入到DataWorks,进行数据分析)
  2. 数据仓库的搭建(在Hadoop里面核心的组件HDFS上嵌套使用Hive框架,用Hive框架创建不同分层的表格,作为数据仓库的整体结构)
  3. 分析统计业务指标(ADS层)
  4. 对结果进行可视化展示

RDS 业务数据库支持多种数据库引擎,包括 MySQL、PostgreSQL、Oracle 和 SQL
Server,以及各种数据库版本和数据库类型。

使用 RDS 业务数据库,您可以轻松地将可扩展性、可用性、安全性和管理负担交还给 AWS,专注于您的应用程序和服务的核心。RDS
业务数据库提供了一个高度可扩展、可靠性高、安全且易于管理的平台,可用于托管和运行关键应用程序。

RDS 业务数据库具有自动备份、自动恢复、安全传输和加密等功能,可确保您的数据始终可用且安全。RDS
业务数据库还提供了一个统一的管理界面,使您可以轻松地管理多个数据库实例。

2.2 阿里云技术框架

阿里云产品简介类比
MaxCompute云原生大数据计算服务Hadoop+Hive+调度器
DataWorks大数据开发治理平台DataX/Canal/DolphinScheduler/AirFlow/Azkaban/Atlas/Griffin
RDS关系型数据库Mysql
QuickBI可视化数据展示工具Tableau、Echarts、Kibana

系统数据流程设计:
RDS(业务数据)
👇
MaxCompute/DataWorkes
👇
RDS(分析结果)
👇
QuickBI

阿里云数仓的核心框架:MaxCompute(计算引擎)、DataWorkes(平台)
原始数据保存在RDS,保存的是业务数据。
分析出的结果到导回RDS

数据分析计算:
对数仓进行分层
ODS(Operational Data Store) 原始数据层
👇数据建模
DWD(Data Warehouse Detail)明细数据层、DIM(Dimension)公告维度层
事实表(介绍业务流程本身,是动作)、维度表(业务流程所处的环境)
👇数据聚合
DWS(Data Warehouse Summary)汇总数据层
👇
ADS(Application Data Service)应用数据层

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值