canal安装(HA)使用

最新推荐文章于 2022-04-19 20:34:19 发布

暗东方

最新推荐文章于 2022-04-19 20:34:19 发布

阅读量440

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_43956381/article/details/103749513

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.canal 入门

1.1 什么是 canal

阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。
Canal是用java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Canal主要支持了MySQL的Binlog解析，解析完成后才利用Canal Client 用来处理获得的相关数据。（数据库同步需要阿里的otter中间件，基于Canal）。

1.2 使用场景

1）原始场景：阿里otter中间件的一部分
otter是阿里用于进行异地数据库之间的同步框架，canal是其中一部分。
在这里插入图片描述
2）常见场景1：更新缓存

3）场景2：抓取业务数据新增变化表，用于制作拉链表。
4）场景3：抓取业务表的新增变化数据，用于制作实时统计。

1.3 canal的工作原理

在这里插入图片描述
复制过程分成三步：
1）Master主库将改变记录写到二进制日志(binary log)中；
2）Slave从库向mysql master发送dump协议，将master主库的binary log events拷贝到它的中继日志(relay log)；
3）Slave从库读取并重做中继日志中的事件，将改变的数据同步到自己的数据库。
canal的工作原理很简单，就是把自己伪装成slave，假装从master复制数据。
在这里插入图片描述

1.4 MySQL的Binlog

1.4.1 什么是Binlog

MySQL的二进制日志可以说是MySQL最重要的日志了，它记录了所有的DDL和DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL的二进制日志是事务安全型的。
一般来说开启二进制日志大概会有1%的性能损耗。二进制有两个最重要的使用场景:
其一：MySQL Replication在Master端开启binlog，Mster把它的二进制日志传递给slaves来达到master-slave数据一致的目的。
其二：自然就是数据恢复了，通过使用MySQLBinlog工具来使恢复数据。
二进制日志包括两类文件：二进制日志索引文件（文件名后缀为.index）用于记录所有的二进制文件，二进制日志文件（文件名后缀为.00000*）记录数据库所有的DDL和DML(除了数据查询语句)语句事件。

1.4.2 Binlog的开启

在MySQL的配置文件(Linux: /etc/my.cnf , Windows: \my.ini)下,修改配置在[mysqld] 区块设置/添加
log-bin=mysql-bin
这个表示binlog日志的前缀是mysql-bin，以后生成的日志文件就是 mysql-bin.123456 的文件后面的数字按顺序生成。每次mysql重启或者到达单个文件大小的阈值时，新生一个文件，按顺序编号。

1.4.3 Binlog的分类设置

MySQL Binlog的格式，那就是有三种，分别是STATEMENT,MIXED,ROW。
在配置文件中选择配置
binlog_format=row
区别：
1）statement
语句级，binlog会记录每次一执行写操作的语句。
相对row模式节省空间，但是可能产生不一致性，比如1
update tt set create_date=now()
如果用binlog日志进行恢复，由于执行时间不同可能产生的数据就不同。
优点：节省空间
缺点：有可能造成数据不一致。
2）row
行级，binlog会记录每次操作后每行记录的变化。
优点：保持数据的绝对一致性。因为不管sql是什么，引用了什么函数，他只记录执行后的效果。
缺点：占用较大空间。
3）mixed
statement的升级版，一定程度上解决了，因为一些情况而造成的statement模式不一致问题
在某些情况下譬如：
当函数中包含 UUID() 时；
包含 AUTO_INCREMENT 字段的表被更新时；
执行 INSERT DELAYED 语句时；
用 UDF 时；
会按照 ROW的方式进行处理
优点：节省空间，同时兼顾了一定的一致性。
缺点：还有些极个别情况依旧会造成不一致，另外statement和mixed对于需要对binlog的监控的情况都不方便。

2.MySQL的准备

2.1 导入模拟业务数据库

2.2 赋权限

在mysql中执行

GRANT SELECT,REPLICATION SLAVE,REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'canal';
FLUSH PRIVILEGES;

2.3 修改/etc/my.cnf文件

[root@hadoop102 mysql]# pwd
/usr/share/mysql
[root@hadoop102 mysql]# cp my-default.cnf /etc/my.cnf
[root@hadoop102 mysql]# vi /etc/my.cnf
server-id=1
log-bin=mysql-bin
binlog_format=row
binlog-do-db=gmall

2.4 重启MySql

3.Canal 安装

3.1 Canal的下载

https://github.com/alibaba/canal/releases
在这里插入图片描述
把canal.deployer-1.1.2.tar.gz拷贝到linux,解压缩

3.2 修改canal的配置

3.2.1修改配置canal.properties

配置/usr/local/hadoop/app/canal/conf/canal.properties是一个对应canal server的全局配置(instance.properties是对应canal instance的配置)。

canal.id = 2  #保证每个canal server的id不同
canal.port = 11111
canal.zkServers =192.168.175.20:2181,192.168.175.21:2181,192.168.175.22:2181
canal.instance.global.spring.xml = classpath:spring/default-instance.xml
#其他配置默认即可.

注意: 两台机器上的instance目录的名字需要保证完全一致，HA模式是依赖于instance name进行管理，同时必须都选择default-instance.xml配置。
配置完成,将文件从192.168.175.20远程复制一份到192.168.175.22上:

#需要确保已开通免密
scp -rp /usr/local/hadoop/app/canal slave2:/usr/local/hadoop/app/

3.2.2 修改配置instance.properties

新解压的文件夹/usr/local/hadoop/app/canal/conf/有一个example文件夹,一个example就代表一个instance实例.而一个instance实例就是一个消息队列,所以这里可以将文件名改为example1,同时再复制出来一个叫example2.(命名可以使用监听的数据库名)

修改/usr/local/hadoop/app/canal/conf/example1/instance.properties配置文件:

canal.instance.master.address=192.168.175.21:3306
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.mq.topic=example1

修改/usr/local/hadoop/app/canal/conf/example2/instance.properties配置文件:

canal.instance.master.address=192.168.175.22:3306
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.mq.topic=example2

3.3 启动canal

启动canal

./bin/startup.sh

在这里插入图片描述

4. 数据监控模块—抓取订单数据

4.1 pom.xml

<dependencies>
    <dependency>
        <groupId>com.atguigu.gmall2019.dw</groupId>
        <artifactId>dw-common</artifactId>
        <version>1.0-SNAPSHOT</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/com.alibaba.otter/canal.client -->
    <dependency>
        <groupId>com.alibaba.otter</groupId>
        <artifactId>canal.client</artifactId>
        <version>1.1.2</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->
    <dependency>
        <groupId>org.apache.kafka</groupId>
        <artifactId>kafka-clients</artifactId>
        <version>0.11.0.2</version>
    </dependency>
</dependencies>

4.2 通用监视类 --CanalClient

对象名称	介绍	包含内容
message	一次canal从日志中抓取的信息，一个message包含多个sql(event)	包含一个Entry集合
entry	对应一个sql命令，一个sql可能会对多行记录造成影响。	序列化的数据内容storeValue
rowchange	是把entry中的storeValue反序列化的对象。	1.rowdatalist 行集 2.eventType(数据的变化类型 insert update delete create alter drop)
RowData	出现变化的数据行信息	1.afterColumnList (修改后) 2.beforeColumnList（修改前）
column	一个RowData里包含了多个column，每个column包含了 name和 value	1.columnName 2.columnValue

在这里插入图片描述

public class CanalClient{

    public static void main(String[] args) {
        //连接
        CanalConnector canalConnector = CanalConnectors.newSingleConnector(new InetSocketAddress("hadoop102", 11111), "example", "", "");
        while (true){
            canalConnector.connect();
            canalConnector.subscribe("gmall.*");
            //每次获取100个message
            Message message = canalConnector.get(100);
            int size = message.getEntries().size();
            //如果没有message，就休息一会
            if(message.getEntries().size() == 0){
                System.out.println("没有数据！！休息5秒");
                try {
                    Thread.sleep(5000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }else{
            	//遍历message里面的Entry数组
                for (CanalEntry.Entry entry : message.getEntries()) {
                	//判断entry的类型是否是ROWDATA
                  	if(entry.getEntryType() == CanalEntry.EntryType.ROWDATA){
                      	//获取表名
                        String tableName = entry.getHeader().getTableName();
                        //使用CannalHandle处理数据
                        CanalHandler.handleData(tableName, entry);
                  	}
                }
            }
        }
    }
}

public class CanalHandler {

    public static void handleData(String tableName, CanalEntry.Entry entry) {
        try {
            //对数据进行反序列化
            CanalEntry.RowChange rowChange = CanalEntry.RowChange.parseFrom(entry.getStoreValue());
            //获取事件类型
            CanalEntry.EventType eventType = rowChange.getEventType();
            //判断此事件是否是新增,是否订单表
            if ("order_info".equals(tableName) && CanalEntry.EventType.INSERT.equals(eventType)) {
                //将每一行数据发送到kafka
                getJsonStringAndSendKafka(GmallConstants.KAFKA_TOPIC_NEW_ORDER, rowChange);
            } else if (tableName.equals("order_detail") && CanalEntry.EventType.INSERT.equals(eventType)) {
                //将每一行数据发送到kafka
                getJsonStringAndSendKafka(GmallConstants.KAFKA_TOPIC_ORDER_DETAIL, rowChange);
            } else if (tableName.equals("user_info") && (CanalEntry.EventType.INSERT.equals(eventType) || CanalEntry.EventType.UPDATE.equals(eventType))) {
                //将每一行数据发送到kafka
                getJsonStringAndSendKafka(GmallConstants.KAFKA_TOPIC_USER_INFO, rowChange);
            }
        } catch (InvalidProtocolBufferException e) {
            e.printStackTrace();
        }
    }

    private static void getJsonStringAndSendKafka(String topic, CanalEntry.RowChange rowChange) {
        //获取行数据信息数组
        List<CanalEntry.RowData> rowDatasList = rowChange.getRowDatasList();
        for (CanalEntry.RowData rowData : rowDatasList) {
            JSONObject jsonObject = new JSONObject();
            //获取列数据信息数组，在进行遍历
            for (CanalEntry.Column column : rowData.getAfterColumnsList()) {
                jsonObject.put(column.getName(), column.getValue());
            }
            System.out.println(jsonObject);
            //将每一行数据发送到kafka
            MyKafkaSender.send(topic, jsonObject.toJSONString());
        }
    }
}

public class MyKafkaSender {
    private static KafkaProducer<String, String> kafkaProducer = null;

    static {
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "hadoop102:9092,hadoop103:9092,hadoop104:9092");
        properties.setProperty("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.setProperty("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        try {
            kafkaProducer = new KafkaProducer<String, String>(properties);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public static void send(String topic, String msg) {
        kafkaProducer.send(new ProducerRecord<String, String>(topic, msg));
    }
}

暗东方

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
canal安装(HA)使用

1.canal 入门1.1 什么是 canal阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。Canal是用java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Cana...
复制链接

扫一扫

专栏目录