大数据之路读书笔记 Day6 离线数据开发之数据开发平台

Frank牛蛙

于 2024-07-15 14:25:58 发布

阅读量509

点赞数 14

分类专栏：大数据之路文章标签：大数据

本文链接：https://blog.csdn.net/weixin_64259675/article/details/140432525

版权

6 篇文章 0 订阅

订阅专栏

回顾

Day5 数据同步遇到的问题与解决方案
Day4 数据同步

1. 统一计算平台

在这里插入图片描述

MaxCompute（原名 ODPS，Open Data Processing Service）是阿里云提供的一种快速、完全托管的EB级数据仓库解决方案。它为用户提供了海量数据存储和实时计算的能力，适用于离线数据处理和分析场景，如大数据分析、机器学习、数据挖掘等。

MaxCompute的主要特点包括：

MaxCompute的体系架构被设计为分层的系统，主要包括以下几个层次：

客户端：
- 提供了多种访问方式，包括REST API、SDK、CLI（命令行工具）以及IDE（集成开发环境），使得开发者可以通过不同的方式来操作MaxCompute。
接入层：
- 提供HTTP服务，负责处理来自客户端的请求，进行负载均衡，以及用户身份验证和访问控制。
逻辑层（控制层）：
- 这一层是MaxCompute的核心，负责用户空间和对象的管理、命令的解析与执行逻辑、数据对象的访问控制与授权等功能。
- 包括Worker（执行计算任务）、Scheduler（任务调度）和Executor（任务执行器）三个主要角色。
存储与计算层：
- 基于飞天内核（Apsara Core），运行在独立的计算集群上，包含多个关键组件：
  - Pangu：分布式文件系统，用于数据存储。
  - Fuxi：资源调度系统，管理计算资源的分配和调度。
  - Nuwa：分布式协同服务，协调集群中的节点活动。
  - Shennong：监控模块，监控整个系统的健康状况。

此外，MaxCompute还与阿里云的其他服务紧密集成，例如：

整体而言，MaxCompute的设计目标是提供一个高性能、高可用、可扩展的云端数据仓库服务，支持大规模的数据分析和处理需求。

在这里插入图片描述

关于使用开发平台（D2）进行数据开发的基本流程如下：

这个流程旨在确保数据开发过程中的每个步骤都得到适当的监督和控制，从而提高数据质量和整体效率。

在这里插入图片描述

形成sql规则，通过系统及研发流程保障，事前解决故障隐患。
就像我们使用MySQL、SQL server时会出现警告及报错中止查询，SQLSCAN提供了校验规则。
在这里插入图片描述 工作流程：

SQLSCAN主要有如下三类规则校验：

规则有强规则和弱规则两类产品。触发强规则后，任务的提交会被阻断，必须修复代码后才能再次提交，如FAILED；而触发弱规则，则只会显示违反规则的提示，用户可以继续提交任务,如WARNING。

DQC 通常指的是 Data Quality Control（数据质量控制）。在数据管理和分析领域，DQC 是一个关键的过程，用于确保数据的准确性、完整性、一致性和时效性。数据质量控制涉及到多个方面，包括但不限于：

在这里插入图片描述上面是阿里云DQC（Data Quality Center）的工作流程图。工作流程：

数据监控：DQC可以实时监控企业的数据源，包括数据库、文件、API等，以及这些数据源之间的关系。通过对数据的实时监控，DQC能够及时发现数据质量问题。
数据清理：当DQC发现数据质量问题时，它可以自动触发数据清理流程。数据清理流程可以根据预设的规则和策略，对有问题的数据进行修正或者删除。
规则配置：DQC支持用户自定义数据质量规则，例如数据完整性、数据一致性、数据准确性等。用户可以通过图形化界面配置这些规则，并且可以在不同的数据源之间共享这些规则。
执行规则：DQC会定期执行用户配置的数据质量规则，并将执行结果反馈给用户。如果某个规则未通过，则DQC会标记该数据为“不合格”，并启动数据清理流程。
数据统计：DQC会对所有执行过的数据质量规则的结果进行统计和分析，帮助用户了解整个企业的数据质量状况。
提交和返回结果：用户可以通过DQC提交自己的数据质量需求，然后DQC会根据用户的需要执行相应的数据质量规则，并将执行结果返回给用户。

点赞关注收藏，获取更多干货知识~