dataX安装部署以及简单使用
部署安装
环境准备
- jdk(1.8以上,推荐1.8)
- python(推荐python2.6.x)
下载并解压
源码地址:https://github.com/alibaba/DataX
本文中部署使用的是DataX3.0,下载地址为:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
# 下载后进行解压
tar -zxvf datax.tar.gz -C /opt/software/
运行自检脚本
cd /opt/software/datax/
bin/datax.py job/job.json
运行自检脚本可能会出现的错误
上述图中运行自检脚本错误为:/opt/software/datax/plugin/reader/._hbase094xreader/plugin.json文件不存在
原因:DataX3.0版本使用的是hbase11xreader/hbase11xwriter
解决方法:
# 删除datax/plugin/reader下所有._前缀的文件,因为该文件夹下会有隐藏的jar包,所以用._*er方式进行匹配
find /opt/module/datax/plugin/reader/ -type f -name "._*er" | xargs rm -rf
# 删除datax/plugin/writer下所有._前缀的文件,因为该文件夹下会有隐藏的jar包,所以用._*er方式进行匹配
find /opt/module/datax/plugin/writer/ -type f -name "._*er" | xargs rm -rf
关系型数据库数据同步至hbase
oracle数据库
json配置文件
{
"job":{
"setting":{ "speed": { "channel":5 } },
"content":[{
"reader":{
"name":"oraclereader",
"parameter":{
"username":"cbuser",
"password":"cbuser",
"connection":[
{
"jdbcUrl":[ "jdbc:oracle:thin:@10.1.2.41:1521/test1"],
"querySql":[
"select * from demo"
]
}
]
}
},
"writer":{
"name":"hbase11xwriter",
"parameter":{
"hbaseConfig":{"hbase.zookeeper.quorum":"10.1.2.51:2181"},
"table":"collection:offLine_Acq_test_demo",
"mode":"normal",
"rowkeyColumn":[{"index":0,"type":"string"}],
"column":[
{"index":1,"name":"f:name","type":"string"}
],
"encoding":"utf-8"
}
}
}]
}
}
运行采集脚本
/opt/software/datax/bin/datax.py /opt/software/datax/conf/oracle.json
任务成功显示