windows安装并简单使用datax
文章目录
一、datax概述
DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
二、DataX框架设计
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
-
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
-
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
-
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
三、DataX安装
环境准备:
1.JDK1.8
这里不做介绍
2.Python2.7
推荐是python2 确实有点老,如果本机安装的是python3,可以再安装一个python2。这里介绍如何在安装过python3的情况下安装python2。
在官网找到合适的[安装包]:(https://www.python.org/downloads/windows/)https://www.python.org/downloads/windows/
下载完成后一路安装即可,再在环境变量中添加
关键:
找到你的python2的安装路径,将python.exe改为python2.exe
再进到scripts目录,将pip.exe改为pip2.exe
python3同样道理将python.exe改为python3.exe,pip.exe改为pip3.exe
做完后在cmd中测试。
同上即可
3.安装datax
下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
下载完成后选择文件夹解压
其中bin目录是脚本目录,job下存放的json文件就是用来运行的。
测试:
进入bin目录
python2 datax.py …/job/job.json
执行成功及可。
我这里的输出结果是乱码,按照网上的方法也是还一样,所以这里再提供一种用java运行脚本的方法。
public static void main(String[] args) {
try {
String windowcmd = "cmd /c python2 datax.py D:\\datax\\job\\job3.json";
//