阿里云DataWorks介绍

最新推荐文章于 2024-08-23 17:09:06 发布

柳小葱

最新推荐文章于 2024-08-23 17:09:06 发布

阅读量1.5w

点赞数 14

分类专栏：阿里云大数据实践文章标签：阿里云云计算 hadoop 大数据 DataWorks

本文链接：https://blog.csdn.net/weixin_48077303/article/details/122728752

版权

阿里云大数据实践专栏收录该内容

10 篇文章 24 订阅

订阅专栏

🍓前几篇博客中，我们讲到阿里云的MaxComputer，今天我们继续学习阿里云的DataWorks，对DataWorks的学习计划是写2章。对外往期内容感兴趣的小伙伴可以参考下面的内容👇:

🍑本文是DataWorks系列的第一章，关于DataWorks的简介部分，主要介绍大数据开发与治理平台DataWorks的功能概念。

关于DataWorks的实战部分，也在同一天完成了，一起发出来：

阿里云系列: 阿里云DataWorks学习之平台实践.

1. DataWorks简介

DataWorks（数据工场）是阿里云重要的PaaS平台产品，它提供全面托管的工作流服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。主要包括下面几个部分：

全面任务托管：具有强大的调度能力，提供完全的托管服务。
多种任务类型：数据同步、OPDS SQL 、MR、SHELL、机器学习。
可视化开发：提供可视化的代开发、工作流设计界面。
监控报警：可视化的任务监控，任务监控短信报警。

1.1 DataWorks在大数据架构中的位置

如图：DataWorks集成了数据开发、任务调度、数据管理的功能。
在这里插入图片描述

1.2 DataWorks功能架构

如图：DataWorks将大数据处理的一套流程都集成起来，方便开发业务的流畅运行。
在这里插入图片描述

1.3 DataWorks的核心功能

数据集成：主要用于离线/实时数据同步。提供复杂网络下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
数据开发：对MaxComputer中的数据进行加工、分析与挖掘等处理，发现其价值。
数据应用：MaxComputer 中的数据进行加工处理后，应用各种场景，如数据提取、数据交换、数据报表、数据分析。
数据服务：提供为企业搭建统一的数据服务总线，帮助企业统一管理对外对内的API服务。提供快速将数据表生成API的能力，同时支持快速注册现有API至数据服务平台，进行统一的管理和发布。
数据治理：多种数据处理视角下的数据治理流程与工具引导，满足数据生产、数据使用、数据管理场景下的主要数据治理需求，如数据质量、数据地图、安全中心、数据保护伞。
任务运维：各种数据处理任务的发布、监管、运维。

2. DataWorks的应用

2.1 数据处理部分

2.1.1 数据输入（数据同步）

数据同步是数据流程处理的第一步：如图

数据集成有以下几个特点：

仅支持结构化的数据
支持单地域内及部分跨地域的相互同步、交换
完成数据同步，本身不提供数据流的消费方式

通常来说，数据同步都是将业务系统中产生的业务数据定期导入到工作区，通过工作流任务的加工处理后，再将计算结果定期导入到指定的数据源中，供进一步展示或者使用。

2.1.2 数据开发

数据开发是在数据集成之后的工作，在大数据处理中的位置如下：
在这里插入图片描述
数据开发模式采用项目>解决方案>业务流程三级结构，按照业务种类将相关的不同类型的节点任务组织在一起。

项目：权限组织的基本单位，用来控制用户的开发、运维等权限。
解决方案：可以定义组合一些业务流程为一个解决方案。一个方案可以包含多个流程；解决方案之间可以复用相同的流程；组织完成的解决方案可以沉浸式开发。
业务流程：对业务的抽象实体，以业务的角度来组织数据代码开发，业务流程可以被多个解决方案复用。

开发流程如下：这里展示的是odps sql的开发流程，其他的开发流程大同小异。
在这里插入图片描述

2.1.3 任务运维

数据开发完成的任务部署到生产调度，调度系统每天运行着大量的数据处理任务，任务之间依赖复杂，保证任务按时正常运行。任务运维在大数据处理的部分如下：
在这里插入图片描述
DataWorks的任务运维是在运维中心模块进行，主要包括的功能：

智能监控模块是DataWorks任务运行的监控及分析系统，根据监控规则和任务运行的情况，智能监控决策是否报警、何时报警、如何报警、以及报警给给谁，智能监控会自动选择最合理的报警时间，报警方式以及报警对象。