Datax安装与使用

一、系统依赖

二、安装

1、下载

 官网下载地址https://github.com/alibaba/DataX

  下载DataX源码,自己编译:DataX源码 

  官网发布的Datax工具包,版本不是最新的,存在一些问题(比如mongo数据读取存在字段错位等问题),采用编译最新源码的方式。

 

2、编译

     在idea编译前,datax-all/pom.xml文件注释掉不常用、编译报错的模块。

     

3、打包

     mvn -U clean package assembly:assembly -Dmaven.test.skip=true

    打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/

4、安装

    datax.tar.gz包上传到服务器,并进行解压缩操作,就可以用了。

     tar -zxvf datax.tar.gz -C /opt/moudle/

三、使用

根据需求,参照下面各数据源的Reader、Writer模块,编写test.json文件。

linux执行命令:python /opt/moudle/datax/bin/datax.py  test.json  

类型

数据源

Reader(读)

Writer(写)

文档

NoSQL数据存储OTS 、
RDBMS 关系型数据库MySQL 、
无结构化数据存储TxtFile 、
时间序列数据库OpenTSDB 
阿里云数仓数据存储ODPS 、
           Oracle        √        √     、
 SQLServer 、
 PostgreSQL 、
 DRDS 、
 通用RDBMS(支持所有关系型数据库) 、
 ADS 
 OSS 、
 OCS 、
 Hbase0.94 、
 Hbase1.1 、
 Phoenix4.x 、
 Phoenix5.x 、
 MongoDB 、
 Hive 、
 Cassandra 、
 FTP 、
 HDFS 、
 Elasticsearch 
 TSDB 、

     

样例1:mongo导入到hdfs 

在执行之前,要做好hdfs目录的创建、清除数据等准备工作

 a.hadoop集群单namenode模式:security_enterprise_n2_busequitydetailsdto.json

 b.hadoop集群HA模式:security_enterprise_n2_busequitydetailsdto_ha.json

    重点关注.hadoop集群HA模式的hadoopconfig配置

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值