【消息队列和kafka】你真的懂了吗？

最新推荐文章于 2024-08-10 14:21:01 发布

zz78780

最新推荐文章于 2024-08-10 14:21:01 发布

阅读量381

点赞数

文章标签： kafka

本文链接：https://blog.csdn.net/zz78780/article/details/125950908

版权

关于消息队列的基本概念可见上，写的真的太好了！

一、什么是消息队列？
消息队列，一般我们会简称它为MQ(Message Queue)，嗯，就是很直白的简写。
我们先不管消息(Message)这个词，来看看队列(Queue)。这一看，队列大家应该都熟悉吧。
队列是一种 先进先出的数据结构。

在Java里边，已经实现了不少的队列了：

那为什么还需要消息队列(MQ)这种 中间件呢？？？其实这个问题，跟之前我学Redis的时候很像。Redis是一个以 key-value形式存储的内存数据库，明明我们可以使用类似HashMap这种实现类就可以达到类似的效果了，那还为什么要Redis？《 Redis合集》
到这里，大家可以先猜猜为什么要用消息队列(MQ)这种 中间件，下面会继续补充。
消息队列可以简单理解为： 把要传输的数据放在队列中。

图片来源： https://www.cloudamqp.com/blog/2014-12-03-what-is-message-queuing.html
科普：
把数据放到消息队列叫做 生产者（producer）
从消息队列里边取数据叫做 消费者（consumer）
二、为什么要用消息队列？
为什么要用消息队列，也就是在问：用了消息队列有什么好处。我们看看以下的场景

2.1 解耦
现在我有一个系统A，系统A可以产生一个 userId

然后，现在有系统B和系统C都需要这个 userId去做相关的操作

写成伪代码可能是这样的：

public class SystemA {

    // 系统B和系统C的依赖
    SystemB systemB = new SystemB();
    SystemC systemC = new SystemC();

    // 系统A独有的数据userId
    private String userId = "Java3y";

    public void doSomething() {

        // 系统B和系统C都需要拿着系统A的userId去操作其他的事
        systemB.SystemBNeed2do(userId);
        systemC.SystemCNeed2do(userId);

    }
}

结构图如下：

ok，一切平安无事度过了几个天。
某一天，系统B的负责人告诉系统A的负责人，现在系统B的 SystemBNeed2do(String userId)这个接口不再使用了， 让系统A别去调它了。
于是，系统A的负责人说"好的，那我就不调用你了。"，于是就 把调用系统B接口的代码给删掉了：

public void doSomething() {

  // 系统A不再调用系统B的接口了
  //systemB.SystemBNeed2do(userId);
  systemC.SystemCNeed2do(userId);

}

又过了几天，系统D的负责人接了个需求，也需要用到系统A的userId，于是就跑去跟系统A的负责人说："老哥，我要用到你的userId，你调一下我的接口吧"
于是系统A说："没问题的，这就搞"

然后，系统A的代码如下：

public class SystemA {

    // 已经不再需要系统B的依赖了
    // SystemB systemB = new SystemB();

    // 系统C和系统D的依赖
    SystemC systemC = new SystemC();
    SystemD systemD = new SystemD();

    // 系统A独有的数据
    private String userId = "Java3y";

    public void doSomething() {


        // 已经不再需要系统B的依赖了
        //systemB.SystemBNeed2do(userId);

        // 系统C和系统D都需要拿着系统A的userId去操作其他的事
        systemC.SystemCNeed2do(userId);
        systemD.SystemDNeed2do(userId);

    }
}

时间飞逝：
又过了几天，系统E的负责人过来了，告诉系统A，需要userId。
又过了几天，系统B的负责人过来了，告诉系统A，还是重新掉那个接口吧。
又过了几天，系统F的负责人过来了，告诉系统A，需要userId。
……
于是系统A的负责人，每天都被这给骚扰着，改来改去，改来改去…….
还有另外一个问题，调用系统C的时候，如果系统C挂了，系统A还得想办法处理。如果调用系统D时，由于网络延迟，请求超时了，那系统A是反馈 fail还是重试？？
最后，系统A的负责人，觉得 隔一段时间就改来改去，没意思，于是就跑路了。
然后，公司招来一个大佬，大佬经过几天熟悉，上来就说： 将系统A的userId写到消息队列中，这样系统A就不用经常改动了。为什么呢？下面我们来一起看看：

系统A将userId写到消息队列中，系统C和系统D从消息队列中拿数据。 这样有什么好处？
系统A 只负责把数据写到队列中，谁想要或不想要这个数据(消息)， 系统A一点都不关心。
即便现在系统D不想要userId这个数据了，系统B又突然想要userId这个数据了，都跟系统A无关，系统A一点代码都不用改，由系统D和系统B的维护人员自己去改。
系统D拿userId不再经过系统A，而是从消息队列里边拿。 系统D即便挂了或者请求超时，都跟系统A无关，只跟消息队列有关。
这样一来，系统A与系统B、C、D都解耦了。

2.2 异步
我们再来看看下面这种情况：系统A还是 直接调用系统B、C、D

代码如下：

public class SystemA {

    SystemB systemB = new SystemB();
    SystemC systemC = new SystemC();
    SystemD systemD = new SystemD();

    // 系统A独有的数据
    private String userId ;

    public void doOrder() {

        // 下订单
          userId = this.order();
        // 如果下单成功，则安排其他系统做一些事  
        systemB.SystemBNeed2do(userId);
        systemC.SystemCNeed2do(userId);
        systemD.SystemDNeed2do(userId);

    }
}

假设系统A运算出userId具体的值需要50ms，调用系统B的接口需要300ms，调用系统C的接口需要300ms，调用系统D的接口需要300ms。那么这次请求就需要 50+300+300+300=950ms
并且我们得知，系统A做的是 主要的业务，而系统B、C、D是 非主要的业务。比如系统A处理的是 订单下单，而系统B是订单下单成功了，那发送一条短信告诉具体的用户此订单已成功，而系统C和系统D也是处理一些小事而已。
那么此时，为了 提高用户体验和吞吐量，其实可以 异步地调用系统B、C、D的接口。所以，我们可以弄成是这样的：

系统A执行完了以后，将userId写到消息队列中，然后就直接返回了(至于其他的操作，则异步处理)。
本来整个请求需要用950ms(同步)
现在将调用其他系统接口异步化，从请求到返回只需要100ms(异步)
(例子可能举得不太好，但我觉得说明到点子上就行了，见谅。)

（这个地方有点小错误，实际上系统A的时间确实短了，因为只需要将消息发布到消息队列中就可以了，但是系统B，C，D仍旧需要从消息队列上拉数据，处理数据然后将结果返回消息队列的，这些动作也是需要消耗一定时间的只不过原来的整个消息处理变成了异步，那么现在系统A最终的返回时间=100ms+max（系统X从消息队列获取数据时间+系统X处理数据时间+系统X将处理结果发布回消息队列的时间））

2.3削峰/限流
我们再来一个场景，现在我们每个月要搞一次大促，大促期间的并发可能会很高的，比如每秒3000个请求。假设我们现在有两台机器处理请求，并且每台机器只能每次处理1000个请求。

那多出来的1000个请求，可能就把我们 整个系统给搞崩了…所以，有一种办法，我们可以写到消息队列中：

系统B和系统C 根据自己的能够处理的请求数去消息队列中拿数据，这样即便有每秒有8000个请求，那只是把请求放在消息队列中，去拿消息队列的消息 由系统自己去控制，这样就不会把整个系统给搞崩。

还有6000个请求就要等前面2000个处理好了之后才能继续处理了，比如系统B处理完毕了1000个请求就可以继续处理剩下的6000个请求中的1000个了。

三、使用消息队列有什么问题？
经过我们上面的场景，我们已经可以发现，消息队列能做的事其实还是蛮多的。
说到这里，我们先回到文章的开头，"明明JDK已经有不少的队列实现了，我们还需要消息队列中间件呢？"其实很简单，JDK实现的队列种类虽然有很多种，但是都是 简单的内存队列。为什么我说JDK是简单的内存队列呢？下面我们来看看要实现消息队列(中间件) 可能要考虑什么问题。

3.1高可用
无论是我们使用消息队列来做 解耦、异步还是削峰，消息队列 肯定不能是单机的。试着想一下，如果是单机的消息队列，万一这台机器挂了，那我们整个系统几乎就是不可用了。

所以，当我们项目中使用消息队列，都是得 集群/分布式的。要做 集群/分布式就必然希望该消息队列能够提供现成的支持，而不是自己写代码手动去实现

（也不是自己不能写代码实现，只不过这个东西对开发人员的技术水平要求很高，一般的程序员可能写不出来，写出来可能也漏洞百出）。

3.2 数据丢失问题
我们将数据写到消息队列上，系统B和C还没来得及取消息队列的数据，就挂掉了。 如果没有做任何的措施，我们的数据就丢了。

学过Redis的都知道，Redis可以将数据持久化磁盘上，万一Redis挂了，还能从磁盘从将数据恢复过来。同样地，消息队列中的数据也需要存在别的地方，这样才尽可能减少数据的丢失。
那存在哪呢？
如果消息队列使用的是kafka的话，kafka会在磁盘中Kafka初始会单独开辟一块磁盘空间，顺序写入数据（效率比随机写入高）

实际的应用根据需要都可以，kafka本身提供了和spark，redis、hbase等的交互的接口，按照需要都可以存储没啥问题。

3.3消费者怎么得到消息队列的数据？
消费者怎么从消息队列里边得到数据？有两种办法：
生产者将数据放到消息队列中，消息队列有数据了， 主动叫消费者去拿(俗称push)
消费者不断去轮训消息队列，看看有没有新的数据，如果有就消费(俗称pull)

“消费者不断去轮训消息队列，看看有没有新的数据，如果有就消费(俗称pull)” 这种对应到kafka（kafka是消息队列的一种实现形式）中的点对点模式：

如上图所示，点对点模式通常是基于拉取或者轮询的消息传送模型，这个模型的特点是发送到队列的消息被一个且只有一个消费者进行处理。生产者将消息放入消息队列后，由消费者主动的去拉取消息进行消费。点对点模型的的优点是消费者拉取消息的频率可以由自己控制。但是消息队列是否有消息需要消费，在消费者端无法感知，所以在消费者端需要额外的线程去监控。

"生产者将数据放到消息队列中，消息队列有数据了，主动叫消费者去拿(俗称push)" ，kafka没有实现这种模式。

如上图所示，发布订阅模式是一个基于消息的传送模型，该模型可以有多种不同的订阅者。生产者将消息放入消息队列后，队列会将消息推送给订阅过该类消息的消费者（类似微信公众号）。由于是消费者被动接收推送，所以无需感知消息队列是否有待消费的消息！但是consumer1、consumer2、consumer3由于机器性能不一样，所以处理消息的能力也会不一样，但消息队列却无法感知消费者消费的速度！所以推送的速度成了发布订阅模模式的一个问题！假设三个消费者处理速度分别是8M/s、5M/s、2M/s，如果队列推送的速度为5M/s，则consumer3无法承受！如果队列推送的速度为2M/s，则consumer1、consumer2会出现资源的极大浪费！

zz78780

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【消息队列和kafka】你真的懂了吗？

这个地方有点小错误，实际上系统A的时间确实短了，因为只需要将消息发布到消息队列中就可以了，但是系统B，C，D仍旧需要从消息队列上拉数据，处理数据然后将结果返回消息队列的，这些动作也是需要消耗一定时间的只不过原来的整个消息处理变成了异步，那么现在系统A最终的返回时间=100ms+max（系统X从消息队列获取数据时间+系统X处理数据时间+系统X将处理结果发布回消息队列的时间））实际的应用根据需要都可以，kafka本身提供了和spark，redis、hbase等的交互的接口，按照需要都可以存储没啥问题。...
复制链接

扫一扫