项目中有两个数据库:本地数据库和远程服务器数据库。数据要在本地经过数据洗涤后才传上服务器数据库。之前用的Navicat工具,但是速度慢,且无法设置定时同步。后来改用Datax,它的效率真的非常高。
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
官方地址:下载地址。
我是下载完整包,比较方便不用maven编译
使用步骤:
(1)环境准备:
JDK1.8、python2.6.x(装python3.0会报错)、maven3.x.x(下载源码包时,需要用maven编译)
(2)使用:
将下载好的datax.tar.gz解压,找到job.json文件,路径:E:\datax\job\job.json,用编辑器打开:
{
"job": {
"setting": {
"speed": {
"channel":1
},
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"connection": [
{
//配置sql语句查询要同步的数据querySql,配置querySql后不需要配置column和table,因为当用户配置querySql时,MysqlReader直接忽略table、column、where条件的配置,querySql优先级大于table、column、where选项。
"querySql": [
"select * FROM 表名 WHERE date1>='2018-12-24';"
],
"jdbcUrl": ["jdbc:mysql://[读数据数据库的ip地址]:3306/数据库名?useUnicode=true&characterEncoding=utf8&yearIsDateType=false&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&rewriteBatchedStatements=true"],
}
],
"password": "登录数据库的密码",
"username": "登录数据库的用户名",
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"password": "登录数据库的密码",
"username": "登录数据库的用户名",
"column":["*"],
"connection": [
{
"jdbcUrl": "jdbc:mysql://[写数据的IP地址]/数据库名",
"table": ["数据表名"]
}
],
}
}
}
]
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
打开cmd控制台,执行datax的datax.py,命令:python E:\datax\bin\python E:\datax\job\job.json
,运行结果: