序:
本文首先介绍DataX使用(编写配置文件的方式)之MongoDB中的数据导出到HDFS上的一些注意事项,datax安装没有什么坑,所以本文不对此进行详细介绍,详细安装过程请自行查看官网。
一、datax的基本使用
1、datax的目录结构
![](https://img-blog.csdnimg.cn/img_convert/afc92cc279f7c2906d05a2bb9d1dbdf1.png)
目录说明:
backup:本人自己创建的备份目录
,因为后续使用过程中涉及到更改源码,将原生的jar包备份到此文件夹中
bin:datax的命令
conf:datax的配置文件
job:任务编写的json配置文件存放的位置,官方的demo也在这个目录下
log:运行日志爱
plugin:reader/writer的源码包,后续可以自己更改源码上传替换
script:没啥用
tmp:临时目录
2、查看任务模板
python ./datax.py -r mongodbreader -w hdfswriter
{
"job": {
"content": [
{
"reader": {
"name": "mongodbreader",
"parameter": {
"address": [],
"collectionName": "",
"column": [],
"dbName": "",
"userName": "",
"userPassword": ""
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"column": [],
"compress": "",
"defaultFS": "",
"fieldDelimiter": "",
"fileName": "",
"fileType": "",
"path": "",
"writeMode": ""
}
}
}
],
"setting": {
"speed": {
"channel": ""
}
}
}
}
按照模板填写对应的服务器地址,库,表名,文件名,地址,并行度等即可使用
-----------------------写不动了,困了,想起来再接着写---------------------------