datax介绍及生产脚本配置

常用数据抽取工具:kattle sqoop datax streamsets

streamsets kattle:偏向etl,数据会做处理
sqoop datax:偏向数据同步,数据不做处理直接拿

streamsets主要是对一些数据做ETL处理,如果单纯做数据同步的话用阿里的datax速度更快,效率更高

datax的详细教程可以去官网看 https://github.com/alibaba/DataX

在我这里可以重点参考一下第3点,生产中的shell脚本配置

1.datax介绍

异构数据源离线同步工具
这是一个单机多任务的ETL工具(单机多线程)

框架设计
DataX采用Framework + plugin架构构建

数据源 ===> ReadPlugin -> FrameWork -> WritePlugin ===> 目的端

Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断的从Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

"speed": {
   "channel": 8,    ----并发数限速(根据自己CPU合理控制并发数)
   "byte": 524288,  ----字节流限速(根据自己的磁盘和网络合理控制字节数)
   "record": 10000  ----记录流限速(根据数据合理空行数)

2.编写json任务时注意点:

  • reader过程url有[],writer过程没有[]

  • 可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}

  • 不支持目的端自动建表&#x

### 回答1: Datax的JSON脚本配置说明包括:1. job:用于配置作业的全局配置信息,如作业名称、系统级变量等;2. content:用于配置作业的步骤内容,如reader、writer、transformer等;3. setting:用于配置作业的通用配置参数,如作业优先级、线程数等。 ### 回答2: datax是一个开源的大数据同步工具,可用于将数据从不同的数据同步到目标数据存储中,其中json脚本datax配置文件,用于描述数据源、目标数据存储、数据同步过程等。 在datax的json脚本中,各项配置包括: - jobId:任务的唯一标识符,用于区分不同的任务。 - setting:全局配置项,包括speed、errorLimit等。speed用于控制数据同步的速度,errorLimit用于设定错误限制数。 - content:任务的具体配置,包括reader、writer、transformer等。reader用于指定数据源的配置,如数据库连接信息、表名、查询条件等。writer用于指定目标数据存储的配置,如数据库连接信息、表名、写入模式等。transformer用于对数据进行转换和处理,例如字段映射、数据过滤等。 - job:实际数据同步配置项,包括设置reader和writer的参数、字段映射关系等。 通过json脚本配置,可以实现不同数据源之间的数据同步,可以根据具体需求配置读写数据的方式、数据转换规则,同时也可以设定错误限制数,以提高数据同步的稳定性和可靠性。 总结来说,datax的json脚本中的各项配置说明包括任务标识、全局配置、具体任务配置以及数据读写配置,通过这些配置项可以实现数据同步过程中需要的各种操作和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值