大数据中间件之DataX

DataX

datax

DataX3.0概览

  • DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能

DataX 3.0六大核心优势

  • 可靠的数据质量监控

    • 完美解决数据传输个别类型失真问题
    • 提供作业全链路的流量、数据量�运行时监控
    • 提供脏数据探测
  • 丰富的数据转换功能

  • 精准的速度控制

  • 强劲的同步性能

  • 健壮的容错机制

  • 极简的使用体验

工具对比(Datax,Flume,Sqoop)

  • 总结

      1. sqoop datax等一般用于数据库和大数据文件存储框架之间的数据导入和导出.注意导入导出是从大数据存储框架角度来说的.
      1. flume等日志采集框架,用于日志文件等半结构化数据和大数据文件存储框架之间的数据导入和导出.
      1. 针对HBase的数据导入导出,可以使用文件形式,直接bulkload方式,也是一样的.
      1. 其他框架按照功能划分,也是一样的道理. 不过当学会使用mapreduce或者spark 程序之后,其实这类
    • 简单的数据导入导出功能,自己开发程序实现也是一样的,不过通用性和健壮性会差一些.
      1. 实际企业开发中,遇到特殊的数据导入和导出,很多时候还是需要针对性编写代码处理的.

DataX3.0框架设计

  • DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中

    • Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
    • Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
    • Framework(channel):Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

核心模块介绍

    1. DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
    1. DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
    1. 切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
    1. 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
    1. DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0

DataX调度流程

  • 用户提交了一个DataX作业,并且配置了20个并发,目的是将一个200张分表的mysql数据同步到odps里面

      1. DataXJob根据分库分表切分成了200个Task。
      1. 根据20个并发,DataX计算共需要分配4个TaskGroup。
      1. 4个TaskGroup平分切分好的200个Task,每一个TaskGroup负责以5个并发共计运行50个Task。

数据抽取策略

  • 和sqoop一样,从结构化数据库中抽取数据,最后需要根据数据库表和数据总量,每日数据变化做抽取策略选择

    • 小表——全量抽取
    • 大表——增量抽取

DataX-Web

概述

  • DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本

架构

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值