DRDS到MaxCompute（原ODPS）数据归档性能优化测试

阿里云云栖号

于 2018-04-25 15:51:00 发布

阅读量1.3k

点赞数

文章标签：测试数据同步

本文链接：https://blog.csdn.net/yunqiinsight/article/details/80079866

版权

摘要： cdp同步基本原理数据集成（Data Integration）是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点，可为 20 多种数据源提供不同网络环境下的离线（全量/增量）数据进出通道。

一、cdp同步基本原理

数据集成（Data Integration）是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点，可为 20 多种数据源提供不同网络环境下的离线（全量/增量）数据进出通道。数据源类型的详情请参见支持数据源类型。

数据集成的原理：
数据集成在阿里云上提供一套分布式离线数据同步平台，同时提供一套抽象化的数据抽取插件（称之为Reader）、数据写入插件（称之为Writer），并基于此框架设计一套简化版的中间数据传输格式，从而达到任意结构化、半结构化数据源之间数据传输之目的。从用户角度来看，一个数据集成同步任务运行Job示意图如下所示：

上述中，红色虚箭头是代表通过collector状态收集器监控数据返回到脏数据管理服务器进行数据分析，灰色方向箭头代表数据流向。DI Service主要是包含资源管理器、Job管理器、脏数据管理器、分布式服务、鉴权服务等。Job Container主要是将数据集成运行任务分成若干个task，然后通过scheduler调度管理。TaskGroup Container主要是数据抽取通过数据通道（channel）将数据写入。

• 使用数据集成Job启动API，向数据集成服务端发起调用，提交一个离线数据同步Job。
• 数据集成收到Job API请求后，将负责做必要的安全和权限校验，待校验通过后，数据集成会下发相应的Job到执行集群节点启动离线数据同步任务。
• Job启动后，根据您提供的源端（Reader）、目的端（Writer）的配置信息，加载并初始化相关插件，连接两端数据源，开始数据同步工作。
• Job运行过程中，将随心跳向数据集成汇报当前进度、速度、数据量等关键运行指标，可根据Job的状态API实时获取该Job运行状态，直至Job运行结束（成功或者失败）。

流程概述