阿里云大数据ACP认证学习笔记之——————Dataworks

最新推荐文章于 2024-08-08 07:04:10 发布

江凌

最新推荐文章于 2024-08-08 07:04:10 发布

阅读量1.3k

点赞数 2

分类专栏：大数据文章标签：阿里云大数据 ACP认证

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xdkb159/article/details/107821387

版权

大数据专栏收录该内容

11 篇文章 4 订阅

订阅专栏

基本概念

产品服务
- 数据集成
- 数据开发
- 数据地图
- 数据质量
- 数据服务
计算和存储引擎服务
- 离线计算MaxCompute
- 开源大数据引擎E-MapReduce
- 实时计算（基于Flink）
- 机器学习PAI
- 图计算服务Graph Compute
- 交互式分析服务
工作空间：DataWorks管理任务、成员，分配角色和权限的基本单元。
解决方案：可以包括多个业务流程，以复用相同的业务流程。
组件：组件是带有多个输入参数和输出参数的SQL代码过程模板。
资源组：资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现，即CPU、内存和带宽的大小。
数据集成的资源组包括以下类型：

公共资源组
独享数据集成资源组
自定义资源组

任务：任务是对数据执行的操作的定义。主要分为：

Node Task：节点任务
Flow Task：工作流任务
innerNode：内部节点

实例：实例是某个任务在某时某刻执行的一个快照。
工作空间成员包括项目所有者、项目管理员、开发、运维、部署、访客和安全管理员等角色，工作空间创建者默认为管理员角色。
数据开发流程

数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。
数据收集与存储：您需要同步不同业务系统的数据至MaxCompute中，方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。
数据分析与处理：完成数据的同步后，可以对MaxCompute中的数据进行加工（MaxCompute SQL、MaxCompute MR）、分析与挖掘（数据分析、数据挖掘）等处理，从而发现其价值。
数据提取：分析与处理后的结果数据，需要同步导出至业务系统，以供业务人员使用其分析的价值。
数据展现与分享：数据提取成功后，可以通过报表、地理信息系统等多种展现方式，展示与分享大数据分析、处理后的成果。

数据集成

支持且仅支持结构化（例如RDS、DRDS等）、半结构化、无结构化（OSS、TXT等）的数据的同步。
离线（批量）数据同步支持的数据源

关系型数据库
大数据存储
半结构化存储
NoSQL
消息队列
图计算引擎

实时数据同步

输入：MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
输出：MaxCompute、Hologres、Kafka和Datahub。
数据转换：数据过滤、Groovy和字符串替换。

网络类型

经典网络：统一部署在阿里云的公共基础网络内，网络的规划和管理由阿里云负责。
专有网络：基于阿里云构建出一个隔离的网络环境，您可以完全掌控自己的虚拟网络。
本地IDC网络：您自身构建机房的网络环境，与阿里云网络隔离。

数据同步速度的影响因素
- 来源端数据源

数据库的性能：CPU、内存、SSD硬盘、网络和硬盘等。
并发数：数据源并发数越高，数据库负载越高。
网络：网络带宽、网速。

- 数据集成的同步任务配置

传输速度：是否设置任务同步速度上限值。
并发：从源并行读取或并行写入数据存储端的最大线程数。
Bytes的设置：单个线程的Bytes=1048576，在网速比较敏感时，会出现超时现象，此时建议将Bytes设置的较小。
等待资源
查询语句是否建立索引

- 目的端数据源

性能：CPU、内存、SSD 硬盘、网络和硬盘。
负载：目的数据库负载过高会影响同步任务数据写入效率。
网络：网络的带宽（吞吐量）、网速。

数据开发

业务流程：业务流程由以下各模块的节点组成
- 数据集成：数据集成任务包括离线同步节点和实时同步节点。
- MaxCompute：MaxCompute计算引擎包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS MR等数据开发节点。并可以查看和新建表、资源及函数：

数据开发：MaxCompute数据开发节点包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS M；
表：新建表；
资源：创建资源；
函数：新建函数。

- AnalyticDB for PostgreSQL：可以新建AnalyticDB for PostgreSQL节点和AnalyticDB for PostgreSQL表。
- EMR：EMR计算引擎包括EMR HIVE、EMR MR、EMR SPARK和EMR SPARK等数据开发节点，并可以查看和新建EMR资源。
- 算法：机器学习节点。
- 通用：OSS对象检查、for-each、do-while、归并节点、分支节点、赋值节点、Shell、虚拟节点和跨租户节点。
- 自定义： Hologres开发、Data Lake Analytics和AnalyticDB for MySQL。
节点组：可以服用的一系列节点的组合。

数据地图

数据地图是在元数据基础上提供的企业数据资产管理模块，涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。

数据质量

数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。
数据质量提供全链路的数据质量方案，包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。
数据质量以数据集（DataSet）为监控对象。目前，数据质量支持EMR（E-MapReduce）、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。
数据质量监控的流程

执行任务
触发规则
执行规则
报警/阻塞

数据服务

生成API：可根据向导模式或脚本模式将关系型数据库和NoSQL数据库的表生成API。
注册API：注册API。
API网关：API网关（API Gateway）提供API托管服务，涵盖API发布、管理、运维、售卖的全生命周期管理。
API市场：数据服务生成和注册的API发布至API网关后，可以一键上架至阿里云API市场售卖。

DataHub

DataHub是阿里云提供的流式数据处理平台，提供对流式数据的发布、订阅和分发功能。
StreamCompute是阿里云提供的流计算引擎，提供使用类SQL的语言来进行流式计算。
基本概念

Project：项目（Project）是DataHub数据的基本组织单元,下面包含多个Topic。
Topic：Topic是 DataHub 订阅和发布的最小单位，用户可以用Topic来表示一类或者一种流数据。
Topic Lifecycle：表示一个Topic中写入数据在系统中可以保存的最长时间，以天为单位，最小值为1，最大值为7。
Shard：Shard表示对一个Topic进行数据传输的并发通道。
Shard Merge：Shard合并，可以把相邻的Key Range连接的Shard merge成一个Shard。
Shard Split：Shard分裂，可以把一个Shard分裂成Shard Key Range相连接的两个Shard。
Record：用户数据和 DataHub 端交互的基本单位。
RecordType：Topic的数据类型，目前支持Tuple与Blob两种类型。

应用场景

实时数据通道：通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统。
实时数据清洗和分析：通过数据总线和实时计算，您可以把多种数据源的异构数据实时清洗成统一的结构化数据。
实时数据仓库：通过数据总线搭建原始数据层，实时明细层和实时汇总层，打造实时数据仓库。

当Shard进行Merge/Split后会被置为CLOSED状态，该状态可以继续消费读取数据，但是不可写入，也不可再次进行Merge/Split操作，当到达Topic的lifecycle后该Shard会被回收。
Topic在进行Merge/Split后新的Shard需要等待变为ACTIVE状态后方可正常使用，通常不会超过5秒。
数据同步功能支持的阿里云产品

MaxCompute
ADS
RDS
OTS
OSS
ElasticSearch
Hologres
函数计算服务

Quick BI

基本对象
- 数据源
- 数据集
- 电子表格
- 仪表板
- 数据门户
核心流程
- 获取数据

从云数据库添加数据源
添加来自自建数据库的数据源
上传本地文件

- 创建数据集

可以将各种不同的数据源中的表创建为数据集；
在数据集列表中，可以对已添加的数据集做编辑、移动和删除操作。

- 仪表板：不仅可以将数据以可视化的方式呈现，还支持通过各种数据筛选和查询，使用各种数据展现方式，突出数据中的关键字段。
- 电子表格：电子表格适用于群空间下。电子表格是数据集经过分析，加工后的结果。您在选中一个数据集后可以对数据的内容进行分析。
- 数据门户：可以使用数据门户功能构建例如经营分析系统的应用。数据门户不仅可以引用Quick BI中的数据结果，同时也支持外挂链接。
权限管理
- 数据对象管理：数据对象支持分享和公开

被分享的作品可以被其他用户以只读的方式访问，但不允许修改、删除和另存；
互联网上所有知道链接的人都可以访问被公开的作品。

- 行级权限管理

并不是数据集中的所有字段都需要进行行级权限控制；
目前，成员列表中仅能展示500个成员；
在列表选择中，有一个特殊的选项，所有。如果将这个选项赋予组织中的某位成员，那么该成员在该字段上将不再受行级权限的限制。

机器学习

基本概念
机器学习包括传统机器学习和深度学习。传统机器学习分为以下几类：

监督学习：样本都有对应的期望值，通过搭建模型，实现输入特征向量到目标值的映射；
半监督学习：训练数据部分有标识，部分没标识，模型先学习模型的内在结构，然后进行预测；
无监督学习：所有样本没有目标值，期望从数据本身发现一些潜在规律；
增强学习：系统和外界环境不断交互，根据外界反馈决定自身行为，达到长期目标最优化。

机器学习PAI底层支持多种计算框架：

流式计算框架Flink
深度学习框架TensorFlow
千亿特征样本的大规模并行计算框架Parameter Server
Spark、PySpark、MapReduce等业内主流开源框架

PAI提供的服务：

可视化建模和分布式训练PAI-Studio
Notebook交互式AI研发PAI-DSW（Data Science Workshop）
自动化建模PAI-AutoLearning
在线预测PAI-EAS（Elastic Algorithm Service）

PAI的业务架构

基础设施层：包括CPU、GPU、FPGA及NPU。
计算引擎和容器服务层
计算框架层
按照机器学习全流程，PAI分别提供了数据准备、模型开发和训练及模型部署阶段的产品
业务层

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。