datax windows 安装和使用

datax windows 安装和使用

 window 部署

  下载地址 https://github.com/alibaba/DataX 

   在页面中【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。   直接解压

   需要安装python环境,如果是python3 需要替换对应的文件 

   https://github.com/WeiYe-Jing/datax-web/tree/master/doc/datax-web/datax-python3 , 下载链接目录下的文件,替换对应bin目录下相应文件

datax 使用

     json配置文件,可以分为两块配置,

  1.  setting 执行环境参数配置(没找到对应文档), 
  2. content 配置reader (数据输入) 和writer(数据输出) 可支持多种数据类型,具体用发,和详细参数解释,参考官方文档

   

    mysql-> mysql

     配置文件如下例:

{ 
 
    "job": { 
 
        "content": [ 
 
            { 
 
                "reader": { 
 
                    "name": "mysqlreader",
 
                    "parameter": { 
 
                        "username": "root", 
 
                        "password": "123456",  
 
                        "column": ["id","name"], 
 
                        "connection": [ 
                            { 
                                "table": [ 
                                    "a" 
                                ], 
                                "jdbcUrl": [ 
                                    "jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8&serverTimezone=UTC"
                                ] 
                            } 
                        ] 
                    } 
                }, 
                "writer": { 
                    "name": "mysqlwriter",
                    "parameter": { 
                        "username": "root", 
                        "password": "123456", 
                        "column": ["id","name"], 
                        "connection": [ 
                            { 
                                "table": [ 
                                    "b" 
                                ], 
                                "jdbcUrl":"jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8&serverTimezone=UTC"                              
                            } 
                        ]   
                    } 
                } 
            } 
        ], 
        "setting": {
                 "speed": {
                         "channel": 1,
                         "byte": 104857600
                 },
                 "errorLimit": {
                         "record": 10,
                         "percentage": 0.05
      }
    } 
}
}

启动命令如下:

 python D:\work\bigdata\bigdataTools\datax\bin\datax.py    D:\work\bigdata\bigdataTools\datax\job\job2.json

 windows 命令行 中文乱码,需要执行命令

CHCP 65001

 由于我的本地mysql  版本是8.0,直接运行会报错,由于datax 默认的mysql connect版本不支持的原因

替换安装  plugin\reader\mysqlreader\libs目录下的mysql connect jar,删除旧版本,替换8.0版本 ,同理writer 对应下面的jar 也需要替换

之后再执行,就没有问题了

hive -> streamwriter (控制台)

相关配置:

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "path": "/dw/ods/o_spidertmall_report_ol_transaction_relationship_table_info/*",
                        "defaultFS": "hdfs://emr-header-2.cluster-162572:8020",
                        "column": [
							  {
                                "index": 0,
                                "type": "string"
                               },
                               {
                                 "index": 1,
                                 "type": "string"
                               },
                               {
                                 "index": 3,
                                 "type": "string"
                               }
                        ],
                        "fileType": "orc",
                        "encoding": "UTF-8",
                        "fieldDelimiter": ","
                    }

                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": true
                    }
                }
            }
        ]
    }
}

datax 读取hive ,其实是直接读取对应hive 存储目录下数据,根据文件格式解析数据

path  为对应读取表的目录

defaultFS  为hadoop 文件的地址

具体参数配置,可以参考官方文档

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值