🍓前几篇博客中,我们讲到阿里云的MaxComputer,今天我们继续学习阿里云的DataWorks,对DataWorks的学习计划是写2章。对外往期内容感兴趣的小伙伴可以参考下面的内容👇:
- hadoop专题: hadoop系列文章.
- spark专题: spark系列文章.
- 阿里云系列: 阿里云MaxComputer SQL学习之DDL.
- 阿里云系列: 阿里云MaxComputer SQL学习之DML.
- 阿里云系列: 阿里云MaxComputer SQL学习之内置函数.
🍑本文是DataWorks系列的第一章,关于DataWorks的简介部分,主要介绍大数据开发与治理平台DataWorks的功能概念。
关于DataWorks的实战部分,也在同一天完成了,一起发出来:
- 阿里云系列: 阿里云DataWorks学习之平台实践.
目录
1. DataWorks简介
DataWorks(数据工场)是阿里云重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。主要包括下面几个部分:
- 全面任务托管:具有强大的调度能力,提供完全的托管服务。
- 多种任务类型:数据同步、OPDS SQL 、MR、SHELL、机器学习。
- 可视化开发:提供可视化的代开发、工作流设计界面。
- 监控报警:可视化的任务监控,任务监控短信报警。
1.1 DataWorks在大数据架构中的位置
如图:DataWorks集成了数据开发、任务调度、数据管理的功能。
1.2 DataWorks功能架构
如图:DataWorks将大数据处理的一套流程都集成起来,方便开发业务的流畅运行。
1.3 DataWorks的核心功能
- 数据集成:主要用于离线/实时数据同步。提供复杂网络下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
- 数据开发:对MaxComputer中的数据进行加工、分析与挖掘等处理,发现其价值。
- 数据应用:MaxComputer 中的数据进行加工处理后,应用各种场景,如数据提取、数据交换、数据报表、数据分析。
- 数据服务:提供为企业搭建统一的数据服务总线,帮助企业统一管理对外对内的API服务。提供快速将数据表生成API的能力,同时支持快速注册现有API至数据服务平台,进行统一的管理和发布。
- 数据治理:多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。
- 任务运维:各种数据处理任务的发布、监管、运维。
2. DataWorks的应用
2.1 数据处理部分
2.1.1 数据输入(数据同步)
数据同步是数据流程处理的第一步:如图
数据集成有以下几个特点:
- 仅支持结构化的数据
- 支持单地域内及部分跨地域的相互同步、交换
- 完成数据同步,本身不提供数据流的消费方式
通常来说,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。
2.1.2 数据开发
数据开发是在数据集成之后的工作,在大数据处理中的位置如下:
数据开发模式采用项目>解决方案>业务流程三级结构,按照业务种类将相关的不同类型的节点任务组织在一起。
- 项目:权限组织的基本单位,用来控制用户的开发、运维等权限。
- 解决方案:可以定义组合一些业务流程为一个解决方案。一个方案可以包含多个流程;解决方案之间可以复用相同的流程;组织完成的解决方案可以沉浸式开发。
- 业务流程:对业务的抽象实体,以业务的角度来组织数据代码开发,业务流程可以被多个解决方案复用。
开发流程如下:这里展示的是odps sql的开发流程,其他的开发流程大同小异。
2.1.3 任务运维
数据开发完成的任务部署到生产调度,调度系统每天运行着大量的数据处理任务,任务之间依赖复杂,保证任务按时正常运行。任务运维在大数据处理的部分如下:
DataWorks的任务运维是在运维中心模块进行,主要包括的功能:
智能监控模块是DataWorks任务运行的监控及分析系统,根据监控规则和任务运行的情况,智能监控决策是否报警、何时报警、如何报警、以及报警给给谁,智能监控会自动选择最合理的报警时间,报警方式以及报警对象。
2.2 数据管理
DataWorks的数据管理通过数据地图功能实现对数据的统一管理和血缘的跟踪。数据地铁以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
3. 总结
这一部分DataWorks的介绍主要偏向于理论,大家只要记得DataWorks是一个集成各种大数据处理功能的平台即可。
4. 参考资料
《阿里云全球培训中心》
《阿里云DataWorks使用手册》