一、大数据计算服务考试内容
- 熟悉大数据计算服务基本概念,包括项目空间、表、分区、资源、任务、生命周期、实例、函数、ACID特性
- MaxCompute的输入和输出都是表
- 生命周期只能指定到表级别,而不是在分区级设定生命周期
- 在MaxCompute中,并不是所有的请求都会被转换成任务,如:项目空间、资源、实例、自定义函数的操作
- 了解大数据计算服务的组成架构和各组成部分功能
- 客户端有:RESTful API、Java、R、Web、Command
- 接入层:返回Account ID给HTTP Server
- 逻辑层(控制层):项目空间的管理、对象管理(表、资源和作业)、授权管理、命令解析、元数据
- 请求处理器Woker:本地能处理的作业有用户空间、表、资源等,需要提交给调度器的作业有SQL、MapReduce的分布式任务
- 作业是静态概念,作业对象生成了XML文件
- 作业实例是动态概念,每个作业实例只运行1次
- 调度器:对task进行排序、把Instance分解成task、生成DAG
- 作业执行器:向TaskPool申请Task,并将计算任务提交给计算层
- 计算层:计算层就是飞天内核
- 女娲:高可用的协同服务
- 盘古:存储资源
- 伏羲:资源管理和调度
- 夸父:远程过程调用
- 钟馗:安全管理
- MaxCompute的元数据存储在OTS上,大规模、高性能(毫秒级别和千万QPS)、可扩展
- 掌握大数据计算服务的特点、优势以及适用场景
- MaxCompute的特点
- 分布式:分布式集群、跨集群技术、可灵活扩展
- 安全性:自动存储纠错、沙箱机制、多份备份
- 易用:标准API、全面支持SQL、上传下载工具
- 权限控制:多租户管理、用户权限策略、数据访问策略
- 优势:
- 大规模计算存储
- 多种计算模型
- 强数据安全
- 低成本
- 面运维
- 极致弹性扩展
- 使用场景
- 基于SQL构建大规模数据仓库系统和BI系统
- 基于DAG/Graph构建大型分布式应用系统
- 基于统计和机器学习的大数据统计和数据挖掘
- 掌握大数据计算服务的连接和使用方式,包括使用客户端、管理控制台、JavaSDK等
- 掌握大数据计算服务的数据上传和下载,可以熟练的使用
- MaxCompute提供了两种数据上传下载的通道:
- DataHub实时数据通道:包含的工具有OGG插件、Flume插件、LogStash插件和Fluentd插件。
- Tunnel批量数据通道:包含的工具有MaxCompute客户端、DataWorks、DTS、Sqoop、Kettle 插件以及MMA迁移工具。
- DataHub和Tunnel各自也提供了SDK,而基于这些SDK衍生的数据上传下载的工具,方便您在各种场景下的数据进行上传/下载的需求
- Tunnel命令行工具,了解TunnelSDK
- Tunnel是MaxCompute数据对外的统一通道
- Tunnel的上传和下载都只支持一个表或者一个分区,有分区的表一定要指明分区名和末级分区;上传支持目录上传,下载只能下载单个文件
- 上传支持断点上传,下载则不支持断点下载
- Resume:网络