2.2 离线数仓—全量表同步实现

自学大数据的菜鸡

已于 2022-03-07 19:52:30 修改

阅读量509

点赞数

分类专栏：离线数仓文章标签：数据仓库 big data

于 2022-02-15 16:18:24 首次发布

本文链接：https://blog.csdn.net/yunweijie_cn/article/details/122944903

版权

本文介绍了如何使用DataX从MySQL全量同步数据到HDFS，包括数据同步通道、配置文件编写、自动化脚本生成及执行，以及全量同步的总结和优化过程。

摘要由CSDN通过智能技术生成

业务数据采集模块—全量表数据同步实现

前言
一、全量表数据同步
二、总结
- 1.执行脚本的优化过程
- 2.全量表同步总结

前言

在确定了全量表使用DataX进行同步，增量表使用Maxwell进行同步，且学习了DataX相关使用方法之后，开始着手进行全量表数据同步的实现。

一、全量表数据同步

1.数据同步通道

全量表的数据由DataX从MySQL业务数据库直接同步到HDFS，具体数据流向如下图所示：
在这里插入图片描述
上传到的HDFS路径是/origin_data/gmall/db/activity_info_full/xxxx-xx-xx，其中在HDFS中与MySQL表对应的表名加上了后缀_full，且HDFS中每个表下以一天作为一个文件夹（方便后面Hive建表以及分区表的规划）

2.DataX配置文件编写

先回顾一下，全量表有下图这些：
在这里插入图片描述
这里以其中一张表activity_info为例，编写对应的配置文件：

{
   
    "job": {
   
        "setting": {
   
            "speed": {
   
                 "channel": 1
            }
        },
        "content": [
            {
   
                "reader": {
   
                    "name": "mysqlreader",
                    "parameter": {
   
                        "username": "root",
                        "password": "123456",
                        "column": [
                            "id",
                            "activity_name",
                            "activity_type",
                            "activity_desc",
                            "start_time",
                            "end_time",
                            "create_time"
                        ],
                        "splitPk": "",
                        "connection": [
                            {
   
                                "table": [
                                    "activity_info"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop102:3306/gamll"
                                ]
                            }
                        ]
                    }
                },
               "writer": {
   
                    "name": "hdfswriter",
                    "parameter": {
   
                        "defaultFS": "hdfs://hadoop102:8020",
                        "fileType": "text",
                        "path": "${targetDir}",
                        "fileName": "activity_info",
                        "column": [
                            {
   
                                "name": "id",
                                "type": "bigint"
                            },
                            {
   
                                "name": "activity_name",
                                "type": "string"
                            },
                            {
   
                                "name": "activity_type",
                                "type": "string"
                            },
                            {
   
                                "name": "activity_desc",
                                "type": "string"
                            },
                            {
   
                                "name": "start_time",
                                "type": "string"
                            },
                            {
   
                                "name": "end_time",
                                "type": "string"
                            },
                            {
   
                                "name": "create_time",
                                "type": "string"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "

最低0.47元/天解锁文章

自学大数据的菜鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.2 离线数仓—全量表同步实现

业务数据采集模块—数据同步策略前言一、业务数据同步概述1.数据同步策略概述2.全量同步和增量同步3.全量同步和增量同步对比和选择二、各表同步策略的选择三、数据同步工具概述1.同步工具分类2.两种同步工具对比前言       在了解了所有业务数据的表后，就要解决这些表的同步方式，有些表可能每天都会变，有些表却很少变化，针对不同的表，要采取不同的同步方式，这里具体介绍业务数据表的同步方式一、业务数据同步概述1.数据同步策略概述&nb
复制链接

扫一扫

专栏目录