DataX运行流程和架构

DataX

离线数据同步框架采用FrameWork+plugin架构

将数据源读取和写入抽象成Reader/Writer插件,纳入到整个同步框架中

Reader:为数据采集模块,负责采集数据源的数据,将数据发送给rameWork

Writer:为数据写入模块,负责不断想FrameWork取数据,将数据写入达到目的端

FrameWork:用户连接 Reader 和 Writer ,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题

核心架构:

    1、DataX完成单个数据通过的作业,我们称之为job,DataX 接受到一个job之后将启动一个进程来完成整个作业的同步过程。DataX job 模块是单个作业的中枢管理节点,承担了数据清理,子任务切分(将单一作业计算转换为多个子 Task )TaskGroup管理等

    2、DataX job 启动后会根据不同的远端切分策略,将job切分成多个晓得task 任务,以便于并发执行,Task 便是 DataX作业的最小单元,每一个task都会负责一部分数据的同步工作。

    3、切分多个task之后,DataX job会调用 Scheduler模块,根据配置的并发数据量,将拆分的task重新组合,组装成TaskGroup(task 组),每个taskgroup负责一定的并发运行完毕分配好的所以task,默认单个任务组的并发数量为5

    4、每一个task都是由TaskGroup负责启动,task启动后,会启动 Reader -> Channel -> Writer 的线程来完成任务同步工作

    5、DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值