DataX简介(3.0版本)

DataX是阿里巴巴的一款离线数据同步工具,支持多种数据源间的高效同步。它包括MySQL、Oracle等数据库到HDFS、Hive等大数据存储的同步。DataX采用Framework + plugin架构,通过Reader和Writer插件实现数据读取和写入。在数据同步过程中,DataX会根据数据源切分策略将任务拆分为多个并发执行的Task,确保数据传输的高效性。
摘要由CSDN通过智能技术生成

DataX简介(3.0版本)

1. 背景

1.1. 概览

在这里插入图片描述

  1. 在大数据处理业务框架中,需要处理的数据一般是2个来源(行为日志和业务数据),有些公司如果有python部门,就需要加上python数据这一个。
  2. python数据因为各个公司以及各个页面和接口中数据差异较大,一般需要针对公司和特定业务编写程序进行解析,然后存入HDFS或者其他分布式文件系统中。一般都是编写Spark程序(可以分布式进行处理,效率对比java程序要更高。当然,也可以使用java编写mapreduce程序)。
  3. 行为日志数据,此前已经说过,一般都是使用flume等分布式日志采集框架进行采集,因为这些框架比较成熟,可以直接进行一些预处理,然后存入HDFS或者其他地方。
  4. 业务数据一般都是存放在关系型数据库如mysql或者oracle,或者windows server中。没错,后2个都是需要花钱的,特别是oracle,一般公司用不起。这时候将数据从关系型数据库导出到大数据文件存放系统中,或者反过来,将数据从大数据文件存放系统中导出到关系型数据库中,目前使用datax做数据导入导出框架也逐渐增加。
  5. 不管是流量域数据(行为日志数据),还是业务域数据(存储在关系型数据库中业务数据),都是按照经典数仓分层进行处理,存储,以便于计算和分析,最后做展示。
  6. 经典数仓分层,一般是DIM维度层,再之上就是ODS贴源层,然后是DW层(一般划分为DWD数据明细层,DWS数据服务层),然后是ADS应用层。而不管是流量域还是业务域的数据,都是需要按照这个分层进行数据预处理,提取,处理,存储到这些层级的。

1.2 官网

https://github.com/alibaba/DataX/blob/master/introduction.md
在这里插入图片描述
2. DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
3. 因为阿里本身也有数据存储产品,所以肯定是支持的,你懂的.

2. 安装

  1. 官网下载datax包,之后解压
  2. 注意,一般第三方软件都是放在linux的opt或者usr目录下

3. 使用

3.1 简单使用

  1. 编写json配置文件,配置文件结构如下:
{
   
    "job": {
   
        "content": [

                "reader": {
   
                },
                "writer": {
   
               }
        ],
        "setting": {
   
            "speed": {
   
                "channel": "1"
            }
        
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值