数据同步工具DataX介绍和原理

1. DataX介绍

DataX是一个各种数据源之间的离线数据同步工具

设计理念
DataX的设计理念是一种星型数据链路。DataX作为中间传输载体负责连接各种数据源,通过reader从一个数据源读取数据,再通过writer将数据写入另一个数据源。这样可以以一种插件的方式拓展其它数据源

特点:

  • 支持ORC格式
  • 任务执行完,有执行统计信息
  • 在core部分有数据校验功能
  • 只能在一台服务器,以多线程的方式运行
  • 不支持分布式。但可以再多台服务器部署,对不同的数据库表进行数据同步

2. 框架设计

DataX原理
采用Framework + plugin架构。将数据读取和写入抽象成为Reader和Writer插件。
其中Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题

3. 架构

架构

  • Job:单个作业的管理节点,负责数据清理、子任务划分、TaskGroup监控管理
  • Task:由Job切分而来,是DataX作业的最小单元,每个Task负责一部分数据的同步工作
  • Schedule:将Task组成TaskGroup,单个TaskGroup的并发数量为5。如果总共分配10个channel,则最终会有2个TaskGroup
  • TaskGroup:负责启动Task
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值