DataX迁移MongoDB

DataX迁移MongoDB

源码修改

  • 目前版本中,在迁移MongoDB时,若列的类型为二进制,mongodbreader未做处理,源码src/main/java/com/alibaba/datax/plugin/reader/mongodbreader/MongoDBReader.java

    if (tempCol == null) {
        //continue; 这个不能直接continue会导致record到目的端错位
        record.addColumn(new StringColumn(null));
    }else if (tempCol instanceof Double) {
        //TODO deal with Double.isNaN()
        record.addColumn(new DoubleColumn((Double) tempCol));
    } else if (tempCol instanceof Boolean) {
        record.addColumn(new BoolColumn((Boolean) tempCol));
    } else if (tempCol instanceof Date) {
        record.addColumn(new DateColumn((Date) tempCol));
    } else if (tempCol instanceof Integer) {
        record.addColumn(new LongColumn((Integer) tempCol));
    }else if (tempCol instanceof Long) {
        record.addColumn(new LongColumn((Long) tempCol));
    } else {
        if(KeyConstant.isArrayType(column.getString(KeyConstant.COLUMN_TYPE))) {
            String splitter = column.getString(KeyConstant.COLUMN_SPLITTER);
            if(Strings.isNullOrEmpty(splitter)) {
                throw DataXException.asDataXException(MongoDBReaderErrorCode.ILLEGAL_VALUE,
                    MongoDBReaderErrorCode.ILLEGAL_VALUE.getDescription());
            } else {
                ArrayList array = (ArrayList)tempCol;
                String tempArrayStr = Joiner.on(splitter).join(array);
                record.addColumn(new StringColumn(tempArrayStr));
            }
        } else {
            record.addColumn(new StringColumn(tempCol.toString()));
        }
    }
    
  • 修改为:

    if (tempCol == null) {
        //continue; 这个不能直接continue会导致record到目的端错位
        record.addColumn(new StringColumn(null));
    }else if (tempCol instanceof Double) {
        //TODO deal with Double.isNaN()
        record.addColumn(new DoubleColumn((Double) tempCol));
    } else if (tempCol instanceof Boolean) {
        record.addColumn(new BoolColumn((Boolean) tempCol));
    } else if (tempCol instanceof Date) {
        record.addColumn(new DateColumn((Date) tempCol));
    } else if (tempCol instanceof Integer) {
        record.addColumn(new LongColumn((Integer) tempCol));
    }else if (tempCol instanceof Long) {
        record.addColumn(new LongColumn((Long) tempCol));
    }  else if (tempCol instanceof Binary) {
        // 处理 MongoDB 的 Binary 类型数据
        Binary binaryData = (Binary) tempCol;
        byte[] binaryBytes = binaryData.getData();
        // 将字节数组添加到 DataX 中的二进制列
        record.addColumn(new BytesColumn(binaryBytes));
    } else {
        if(KeyConstant.isArrayType(column.getString(KeyConstant.COLUMN_TYPE))) {
            String splitter = column.getString(KeyConstant.COLUMN_SPLITTER);
            if(Strings.isNullOrEmpty(splitter)) {
                throw DataXException.asDataXException(MongoDBReaderErrorCode.ILLEGAL_VALUE,
                    MongoDBReaderErrorCode.ILLEGAL_VALUE.getDescription());
            } else {
                ArrayList array = (ArrayList)tempCol;
                String tempArrayStr = Joiner.on(splitter).join(array);
                record.addColumn(new StringColumn(tempArrayStr));
            }
        } else {
            record.addColumn(new StringColumn(tempCol.toString()));
        }
    }
    
    • 修改源码后,要重新打包,由于只更改了mongodbreader,故在打包时,可以考虑将根

迁移脚本

  • 编写job脚本:1.json

    {
        "job": {
            "content": [
                {
                    "reader": {
                        "name": "mongodbreader",
                        "parameter": {
                            "address": ["ip1:27017"],
                            "collectionName": "data",
                            "column": [
    							{
                                    "name": "_id",
                                    "type": "long"
                                },
                                {
                                    "name": "fileContent",
                                    "type": "bytes"
                                }
    						],
                            "dbName": "monitor",
                            "userName": "root",
                            "userPassword": "123456",
    						"query": {
    						  "_id": {
    							"$lt": 21
    						  }
    						}
                        }
                    },
                    "writer": {
                        "name": "mongodbwriter",
                        "parameter": {
                            "address": ["ip2:27017"],
                            "collectionName": "data",
                            "column": [
    							{
                                    "name": "_id",
                                    "type": "long"
                                },
                                {
                                    "name": "fileContent",
                                    "type": "bytes"
                                }
    						],
    						"writeMode": {
    						  "isReplace": "true",
    						  "replaceKey": "_id"
    						}
                            "dbName": "test",
    						"userName": "root",
                            "userPassword": "123456",
                        }
                    }
                }
            ],
            "setting": {
                "speed": {
                    "channel": "2"
                }
            }
        }
    }
    
    • reader中的query节点为查询条件,上述demo中是查询_id小于21的记录。
  • 执行命令:

    python datax.py G:\Code\1.json
    
    • datax.py在打包后的target目录下,相对路径:target\datax\datax\bin
  • 25
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我可以提供一种使用Apache DataXMongoDB数据同步到Kudu的方法。步骤如下:1.安装Apache DataXMongoDB Kudu Connector;2.在DataX中配置MongoDB Reader和Kudu Writer;3.运行DataX任务,将MongoDB中的数据同步到Kudu中。 ### 回答2: 编写dataxmongodb到kudu的数据迁移任务需要以下步骤: 1. 安装和配置datax:首先,需要在目标服务器上安装和配置datax,以确保其可以正常运行。可以从datax官方网站下载并安装相应版本的datax。 2. 配置mongodb读取器:在datax的配置文件中,需要指定mongodb作为数据源。可以使用mongodb读取器插件来实现数据的读取。配置文件需要指定mongodb的连接信息(如主机名、端口号、数据库名称和集合名称等)以及读取的字段。 3. 配置kudu写入器:在配置文件中,还需要指定kudu作为数据目标。可以使用kudu写入器插件来实现数据的写入。配置文件需要指定kudu的连接信息(如主机名、端口号和表名等)。 4. 定义字段映射和转换规则:根据需求,需要在配置文件中定义字段映射和转换规则,以使数据能够正确地从mongodb迁移到kudu。例如,可以指定如何映射mongodb中的字段到kudu表中的字段,以及如何进行数据类型转换和格式化等操作。 5. 运行datax任务:配置文件准备好后,可以使用datax命令行工具来运行任务。在命令行中指定配置文件的路径,datax将会读取配置文件并执行数据迁移任务。在执行过程中,可以查看日志来监控任务的运行情况。 总的来说,编写dataxmongodb到kudu的数据迁移任务,需要安装和配置datax,配置mongodb读取器和kudu写入器,定义字段映射和转换规则,最后通过datax命令行工具运行任务。这样就可以实现将mongodb中的数据迁移到kudu中。 ### 回答3: 编写datax将数据从MongoDB导入到Kudu需要以下几个步骤: 1. 确保已经安装好了MongoDB和Kudu,并且能够正常连接到它们。 2. 下载并安装DataXDataX是一个开源的大数据同步工具,可以用于从不同的数据源导入和导出数据。 3. 创建DataX的配置文件,配置文件是一个json格式的文件,用于指定数据源和目标源的相关信息。 4. 在配置文件中,指定MongoDB和Kudu的连接地址、用户名和密码,以及需要导入的MongoDB数据库和集合,以及Kudu的表和列的映射关系。 5. 配置数据转换规则,由于MongoDB和Kudu的数据类型可能不一致,需要使用DataX提供的转换规则来将数据进行格式转换和映射。 6. 运行DataX任务,将数据从MongoDB导入到Kudu。可以通过命令行或者图形界面来启动DataX任务。 7. 监控导入任务,可以通过DataX的日志来查看导入进度和错误情况,以及导入的数据量和时间。 需要注意的是,编写DataX任务需要一定的编程和配置经验,对MongoDB和Kudu的相关知识也有一定的了解。另外,由于DataX是一个通用的数据同步工具,还可以用来从其他数据源导入数据到Kudu,具体配置和步骤可能有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值