datax windows 安装和使用
window 部署
下载地址 https://github.com/alibaba/DataX
在页面中【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。 直接解压
需要安装python环境,如果是python3 需要替换对应的文件
https://github.com/WeiYe-Jing/datax-web/tree/master/doc/datax-web/datax-python3 , 下载链接目录下的文件,替换对应bin目录下相应文件
datax 使用
json配置文件,可以分为两块配置,
- setting 执行环境参数配置(没找到对应文档),
- content 配置reader (数据输入) 和writer(数据输出) 可支持多种数据类型,具体用发,和详细参数解释,参考官方文档
mysql-> mysql
配置文件如下例:
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "123456",
"column": ["id","name"],
"connection": [
{
"table": [
"a"
],
"jdbcUrl": [
"jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8&serverTimezone=UTC"
]
}
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"username": "root",
"password": "123456",
"column": ["id","name"],
"connection": [
{
"table": [
"b"
],
"jdbcUrl":"jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8&serverTimezone=UTC"
}
]
}
}
}
],
"setting": {
"speed": {
"channel": 1,
"byte": 104857600
},
"errorLimit": {
"record": 10,
"percentage": 0.05
}
}
}
}
启动命令如下:
python D:\work\bigdata\bigdataTools\datax\bin\datax.py D:\work\bigdata\bigdataTools\datax\job\job2.json
windows 命令行 中文乱码,需要执行命令
CHCP 65001
由于我的本地mysql 版本是8.0,直接运行会报错,由于datax 默认的mysql connect版本不支持的原因
替换安装 plugin\reader\mysqlreader\libs目录下的mysql connect jar,删除旧版本,替换8.0版本 ,同理writer 对应下面的jar 也需要替换
之后再执行,就没有问题了
hive -> streamwriter (控制台)
相关配置:
{
"job": {
"setting": {
"speed": {
"channel": 3
}
},
"content": [
{
"reader": {
"name": "hdfsreader",
"parameter": {
"path": "/dw/ods/o_spidertmall_report_ol_transaction_relationship_table_info/*",
"defaultFS": "hdfs://emr-header-2.cluster-162572:8020",
"column": [
{
"index": 0,
"type": "string"
},
{
"index": 1,
"type": "string"
},
{
"index": 3,
"type": "string"
}
],
"fileType": "orc",
"encoding": "UTF-8",
"fieldDelimiter": ","
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"print": true
}
}
}
]
}
}
datax 读取hive ,其实是直接读取对应hive 存储目录下数据,根据文件格式解析数据
path 为对应读取表的目录
defaultFS 为hadoop 文件的地址
具体参数配置,可以参考官方文档