假设我们公司的某个系统中依赖了RocketMQ集群,那么在RocketMQ集群彻底崩溃的时候,我们应该如何设计他的高可用方案呢?比如跟金钱相关的一些系统,他可能需要依赖MQ去传递消息,如果你MQ突然崩溃了,可能导致很多跟钱相关的东西就会出问题。
针对这种场景,我们通常都会在你发送消息到MQ的那个系统中设计高可用的降级方案,这个降级方案通常的思路是,你需要在你发送消息到MQ代码里去try catch捕获异常,如果你发现发送消息到MQ有异常,此时你需要进行重试。
如果你发现连续重试了比如超过3次还是失败,说明此时可能就是你的MQ集群彻底崩溃了,此时你必须把这条重要的消息写入到本地存储中去,可以是写入数据库里,也可以是写入到机器的本地磁盘文件里去,或者是NoSQL存储中去,几种方式我们都做过,具体要根据你们的具体情况来决定。
之后你要不停的尝试发送消息到MQ去,一旦发现MQ集群恢复了,你必须有一个后台线程可以把之前持久化存储的消息都查询出来,然后依次按照顺序发送到MQ集群里去,这样才能保证你的消息不会因为MQ彻底崩溃会丢失。
这里要有一个很关键的注意点,就是你把消息写入存储中暂存时,一定要保证他的顺序,比如按照顺序一条一条的写入本地磁盘文件去暂存消息。而且一旦MQ集群故障了,你后续的所有写消息的代码必须严格的按照顺序把消息写入到本地磁盘文件里去暂存,这个顺序性是要严格保证的。
只要有这个方案在,那么哪怕你的MQ集群突然崩溃了,你的系统也是不会丢失消息的,对于一些跟金钱相关的金融系统、广告系统来说,这种高可用的方案设计,是非常的有必要的。