实时数仓设计之mysql binlog

在这里插入图片描述
maxwell启动的时候指定需要同步的表,因为并不是所有的表都需要同步到实时数仓,指定表可以大大的减少发送到kafka的数据量,启动命令例子:

./bin/maxwell --user=root --password=123456 --host=127.0.0.1 --producer=stdout --client_id test1 \
--replica_server_id 1 --filter 'exclude: *.*, include: test.test3’

新增一个同步的mysql表(表名:tt.test3)流程

1.首先需要在后台新增mysql表信息,包括表所在的库,指定kudu中映射表的主键字段(数据行的唯一标示)
2.初始化程序在kudu中创建mysql的映射表(包含字段类型转换,有些mysql中的类型,kudu时不支持的,例如:date)
3.同时启动maxwell bootstrap初始化程序,将新增表的历史数据一次性倒入到maxwell实例,脚本实例如下:

./bin/maxwell-bootstrap --user=root --password=123456 --host=127.0.0.1 --database tt \
--table test3 --client_id test1

或者直接在maxwell库的bootstrap新增一行数据

insert into bootstrap (database_name, table_name,client_id) values ('tt', 'test3','test1');

注意需要指明client_id,这个时候maxwell会记录新表tt.test3 的binlog的位置信息
4.数据发送到kafka集群
5,6,7.conumer进程获得新增表的元数据信息,主要是主键字段,然后消费kafka中的数据,插入更新kudu中的映射表
8.consumer在消费完新增表的初始化数据后,重启maxwell,添加新增表

./bin/maxwell --user=root --password=123456 --host=127.0.0.1 --producer=stdout --client_id test1 \
 --replica_server_id 1 --filter 'exclude: *.*, include: test.test3,include: tt.test3’

这样的话,test1这个maxwell进程就会根据上次maxwell记录tt.test3的位置信息,继续消费binlog日志

注意:对于表结构修改这种情况,我们的做法是,先删除kudu中的映射表,然后重新导入一份,和新增表一样的逻辑;表结构变更这种情况比较少,这种成本开销,还是可以接受的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值