ACP复习——考试提纲(仅记录遗漏点)

一、大数据计算服务考试内容

  1. 熟悉大数据计算服务基本概念,包括项目空间、表、分区、资源、任务、生命周期、实例、函数、ACID特性
  • MaxCompute的输入和输出都是表
  • 生命周期只能指定到表级别,而不是在分区级设定生命周期
  • 在MaxCompute中,并不是所有的请求都会被转换成任务,如:项目空间、资源、实例、自定义函数的操作
  1. 了解大数据计算服务的组成架构和各组成部分功能
  • 客户端有:RESTful API、Java、R、Web、Command
  • 接入层:返回Account ID给HTTP Server
  • 逻辑层(控制层):项目空间的管理、对象管理(表、资源和作业)、授权管理、命令解析、元数据
    • 请求处理器Woker:本地能处理的作业有用户空间、表、资源等,需要提交给调度器的作业有SQL、MapReduce的分布式任务
    • 作业是静态概念,作业对象生成了XML文件
    • 作业实例是动态概念,每个作业实例只运行1次
    • 调度器:对task进行排序、把Instance分解成task、生成DAG
    • 作业执行器:向TaskPool申请Task,并将计算任务提交给计算层
  • 计算层:计算层就是飞天内核
    • 女娲:高可用的协同服务
    • 盘古:存储资源
    • 伏羲:资源管理和调度
    • 夸父:远程过程调用
    • 钟馗:安全管理
  • MaxCompute的元数据存储在OTS上,大规模、高性能(毫秒级别和千万QPS)、可扩展
  1. 掌握大数据计算服务的特点、优势以及适用场景
  • MaxCompute的特点
    • 分布式:分布式集群、跨集群技术、可灵活扩展
    • 安全性:自动存储纠错、沙箱机制、多份备份
    • 易用:标准API、全面支持SQL、上传下载工具
    • 权限控制:多租户管理、用户权限策略、数据访问策略
  • 优势:
    • 大规模计算存储
    • 多种计算模型
    • 强数据安全
    • 低成本
    • 面运维
    • 极致弹性扩展
  • 使用场景
    • 基于SQL构建大规模数据仓库系统和BI系统
    • 基于DAG/Graph构建大型分布式应用系统
    • 基于统计和机器学习的大数据统计和数据挖掘
  1. 掌握大数据计算服务的连接和使用方式,包括使用客户端、管理控制台、JavaSDK等
  2. 掌握大数据计算服务的数据上传和下载,可以熟练的使用
  • MaxCompute提供了两种数据上传下载的通道:
    • DataHub实时数据通道:包含的工具有OGG插件、Flume插件、LogStash插件和Fluentd插件。
    • Tunnel批量数据通道:包含的工具有MaxCompute客户端、DataWorks、DTS、Sqoop、Kettle 插件以及MMA迁移工具。
  • DataHub和Tunnel各自也提供了SDK,而基于这些SDK衍生的数据上传下载的工具,方便您在各种场景下的数据进行上传/下载的需求
  1. Tunnel命令行工具,了解TunnelSDK
  • Tunnel是MaxCompute数据对外的统一通道
  • Tunnel的上传和下载都只支持一个表或者一个分区,有分区的表一定要指明分区名和末级分区;上传支持目录上传,下载只能下载单个文件
  • 上传支持断点上传,下载则不支持断点下载
  • Resume:网络
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值