基本概念
-
产品服务
- 数据集成
- 数据开发
- 数据地图
- 数据质量
- 数据服务
-
计算和存储引擎服务
- 离线计算MaxCompute
- 开源大数据引擎E-MapReduce
- 实时计算(基于Flink)
- 机器学习PAI
- 图计算服务Graph Compute
- 交互式分析服务
- 工作空间:DataWorks管理任务、成员,分配角色和权限的基本单元。
- 解决方案:可以包括多个业务流程,以复用相同的业务流程。
- 组件:组件是带有多个输入参数和输出参数的SQL代码过程模板。
- 资源组:资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。
- 数据集成的资源组包括以下类型:
- 公共资源组
- 独享数据集成资源组
- 自定义资源组
- 任务:任务是对数据执行的操作的定义。主要分为:
- Node Task:节点任务
- Flow Task:工作流任务
- innerNode:内部节点
- 实例:实例是某个任务在某时某刻执行的一个快照。
- 工作空间成员包括项目所有者、项目管理员、开发、运维、部署、访客和安全管理员等角色,工作空间创建者默认为管理员角色。
- 数据开发流程
- 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
- 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。
- 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
- 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
- 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。
数据集成
- 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据的同步。
- 离线(批量)数据同步支持的数据源
- 关系型数据库
- 大数据存储
- 半结构化存储
- NoSQL
- 消息队列
- 图计算引擎
- 实时数据同步
- 输入:MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
- 输出:MaxCompute、Hologres、Kafka和Datahub。
- 数据转换:数据过滤、Groovy和字符串替换。
- 网络类型
- 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责。
- 专有网络:基于阿里云构建出一个隔离的网络环境,您可以完全掌控自己的虚拟网络。
- 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
- 数据同步速度的影响因素
- 来源端数据源
- 数据库的性能:CPU、内存、SSD硬盘、网络和硬盘等。
- 并发数:数据源并发数越高,数据库负载越高。
- 网络:网络带宽、网速。
-
- 数据集成的同步任务配置
- 传输速度:是否设置任务同步速度上限值。
- 并发:从源并行读取或并行写入数据存储端的最大线程数。
- Bytes的设置:单个线程的Bytes=1048576,在网速比较敏感时,会出现超时现象,此时建议将Bytes设置的较小。
- 等待资源
- 查询语句是否建立索引
-
- 目的端数据源
- 性能:CPU、内存、SSD 硬盘、网络和硬盘。
- 负载:目的数据库负载过高会影响同步任务数据写入效率。
- 网络:网络的带宽(吞吐量)、网速。
数据开发
- 业务流程:业务流程由以下各模块的节点组成
- 数据集成:数据集成任务包括离线同步节点和实时同步节点。
- MaxCompute:MaxCompute计算引擎包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS MR等数据开发节点。并可以查看和新建表、资源及函数:
- 数据开发:MaxCompute数据开发节点包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS M;
- 表:新建表;
- 资源:创建资源;
- 函数:新建函数。
-
- AnalyticDB for PostgreSQL:可以新建AnalyticDB for PostgreSQL节点和AnalyticDB for PostgreSQL表。
- EMR:EMR计算引擎包括EMR HIVE、EMR MR、EMR SPARK和EMR SPARK等数据开发节点,并可以查看和新建EMR资源。
- 算法:机器学习节点。
- 通用:OSS对象检查、for-each、do-while、归并节点、分支节点、赋值节点、Shell、虚拟节点和跨租户节点。
- 自定义: Hologres开发、Data Lake Analytics和AnalyticDB for MySQL。
- 节点组:可以服用的一系列节点的组合。
数据地图
- 数据地图是在元数据基础上提供的企业数据资产管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。
数据质量
- 数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。
- 数据质量提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。
- 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。
- 数据质量监控的流程
- 执行任务
- 触发规则
- 执行规则
- 报警/阻塞
数据服务
- 生成API:可根据向导模式或脚本模式将关系型数据库和NoSQL数据库的表生成API。
- 注册API:注册API。
- API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。
- API市场:数据服务生成和注册的API发布至API网关后,可以一键上架至阿里云API市场售卖。
DataHub
- DataHub是阿里云提供的流式数据处理平台,提供对流式数据的发布、订阅和分发功能。
- StreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算。
-
基本概念
- Project:项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。
- Topic:Topic是 DataHub 订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据。
- Topic Lifecycle:表示一个Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7。
- Shard:Shard表示对一个Topic进行数据传输的并发通道。
- Shard Merge:Shard合并,可以把相邻的Key Range连接的Shard merge成一个Shard。
- Shard Split:Shard分裂,可以把一个Shard分裂成Shard Key Range相连接的两个Shard。
- Record:用户数据和 DataHub 端交互的基本单位。
- RecordType:Topic的数据类型,目前支持Tuple与Blob两种类型。
- 应用场景
- 实时数据通道:通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统。
- 实时数据清洗和分析:通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据。
- 实时数据仓库:通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库。
- 当Shard进行Merge/Split后会被置为CLOSED状态,该状态可以继续消费读取数据,但是不可写入,也不可再次进行Merge/Split操作,当到达Topic的lifecycle后该Shard会被回收。
- Topic在进行Merge/Split后新的Shard需要等待变为ACTIVE状态后方可正常使用,通常不会超过5秒。
- 数据同步功能支持的阿里云产品
- MaxCompute
- ADS
- RDS
- OTS
- OSS
- ElasticSearch
- Hologres
- 函数计算服务
Quick BI
- 基本对象
- 数据源
- 数据集
- 电子表格
- 仪表板
- 数据门户
- 核心流程
- 获取数据
- 从云数据库添加数据源
- 添加来自自建数据库的数据源
- 上传本地文件
-
- 创建数据集
- 可以将各种不同的数据源中的表创建为数据集;
- 在数据集列表中,可以对已添加的数据集做编辑、移动和删除操作。
-
- 仪表板:不仅可以将数据以可视化的方式呈现,还支持通过各种数据筛选和查询,使用各种数据展现方式,突出数据中的关键字段。
- 电子表格:电子表格适用于群空间下。电子表格是数据集经过分析,加工后的结果。您在选中一个数据集后可以对数据的内容进行分析。
- 数据门户:可以使用数据门户功能构建例如经营分析系统的应用。数据门户不仅可以引用Quick BI中的数据结果,同时也支持外挂链接。
- 权限管理
- 数据对象管理:数据对象支持分享和公开
- 被分享的作品可以被其他用户以只读的方式访问,但不允许修改、删除和另存;
- 互联网上所有知道链接的人都可以访问被公开的作品。
-
- 行级权限管理
- 并不是数据集中的所有字段都需要进行行级权限控制;
- 目前,成员列表中仅能展示500个成员;
- 在列表选择中,有一个特殊的选项,所有。如果将这个选项赋予组织中的某位成员,那么该成员在该字段上将不再受行级权限的限制。
机器学习
- 基本概念
- 机器学习包括传统机器学习和深度学习。传统机器学习分为以下几类:
- 监督学习:样本都有对应的期望值,通过搭建模型,实现输入特征向量到目标值的映射;
- 半监督学习:训练数据部分有标识,部分没标识,模型先学习模型的内在结构,然后进行预测;
- 无监督学习:所有样本没有目标值,期望从数据本身发现一些潜在规律;
- 增强学习:系统和外界环境不断交互,根据外界反馈决定自身行为,达到长期目标最优化。
- 机器学习PAI底层支持多种计算框架:
- 流式计算框架Flink
- 深度学习框架TensorFlow
- 千亿特征样本的大规模并行计算框架Parameter Server
- Spark、PySpark、MapReduce等业内主流开源框架
- PAI提供的服务:
- 可视化建模和分布式训练PAI-Studio
- Notebook交互式AI研发PAI-DSW(Data Science Workshop)
- 自动化建模PAI-AutoLearning
- 在线预测PAI-EAS(Elastic Algorithm Service)
- PAI的业务架构
- 基础设施层:包括CPU、GPU、FPGA及NPU。
- 计算引擎和容器服务层
- 计算框架层
- 按照机器学习全流程,PAI分别提供了数据准备、模型开发和训练及模型部署阶段的产品
- 业务层