一致性哈希算法的原理与应用剖析

码农研究僧

已于 2022-02-27 16:18:57 修改

阅读量759

点赞数

分类专栏： Java 文章标签：哈希算法服务器算法

于 2022-02-27 15:42:20 首次发布

本文链接：https://blog.csdn.net/weixin_47872288/article/details/123164569

版权

一致性哈希缓存数据倾斜虚拟节点哈希算法

关键词由CSDN通过智能技术生成

Java 专栏收录该内容

169 篇文章 66 订阅

订阅专栏

前言

这部分问题知识在面试中经常被问到，而且是高频中的高频

场景拓展：
要缓存某些数据，放在N台服务器，也就是将其平摊分配这些数据，达到一个缓存的效果。但是如果要找到这些数据的时候，是通过遍历全部服务器，就会失去缓存的意义

原始的做法是对缓存项的key中进行哈希，之后value进行取模操作，决定分配数据在哪台服务器。如果要找这些数据的时候就不用遍历了

hash% N，这个为具体的公式，主要是通过取模运算

但这种算法会有缺陷，原本N台服务器已经缓存好数据了，现在多增加服务器，会导致缓存数据的变换。如果减少服务器，缓存的位置以及数量也会发生变换。大量缓存在同一时间失效，造成缓存雪崩的现象。

一致性哈希算法

为了解决上面的缺陷，一致性哈希算法由此诞生
（取模法是对服务器的数量进行取模，而一致性哈希算法是对2^32^取模）

假设有三台服务器，可以将其服务器ip地址或者其他标志性的东西作为key值进行hash，只不过取模的时候用的是2³²，将其一一映射到环中。之后对应的数据也进行映射，之后沿顺时针的方向，距离最近的服务器就是缓存服务器（A）。具体情况如下所示

在这里插入图片描述
对于缓存雪崩造成的问题，所有服务器的所有缓存在同一时间失效了。
而使用一致性哈希算法时，服务器的数量如果发生改变，并不是所有缓存都会失效，而是只有部分缓存会失效。

数据倾斜的问题

如下所示
理想与现实会造成一定的区别，缓存往往会极度不均衡的分布在各服务器上
可能映射的时候会造成数据倾斜，导致某一部分的服务器有些压力，有些服务器却很轻松
在这里插入图片描述
为了能让这3台服务器尽量多的、均匀的出现在hash环上
设置一些虚拟节点。“虚拟节点”是”实际节点”（实际的物理服务器）在hash环上的复制品,一个实际节点可以对应多个虚拟节点

也就是1和4的数据在服务器C中，2和3的数据在服务器A上
（主要是为了讲解虚拟节点，设置可能刚刚好或者没那么均匀而已，主要是为了讲解明白而已，草图可忽略）每台机器映射的虚拟节点越多，则分布的越均匀~~~
在这里插入图片描述

代码应用

具体这部分代码主要是参考这一篇文章
详情可看该链接
一致性hash算法应用

算法接口

public interface IHashService {
    Long hash(String key);
}

接口实现类

public class HashService implements IHashService {

    /**
     * MurMurHash算法,性能高,碰撞率低
     *
     * @param key String
     * @return Long
     */
    public Long hash(String key) {
        ByteBuffer buf = ByteBuffer.wrap(key.getBytes());
        int seed = 0x1234ABCD;

        ByteOrder byteOrder = buf.order();
        buf.order(ByteOrder.LITTLE_ENDIAN);

        long m = 0xc6a4a7935bd1e995L;
        int r = 47;

        long h = seed ^ (buf.remaining() * m);

        long k;
        while (buf.remaining() >= 8) {
            k = buf.getLong();

            k *= m;
            k ^= k >>> r;
            k *= m;

            h ^= k;
            h *= m;
        }

        if (buf.remaining() > 0) {
            ByteBuffer finish = ByteBuffer.allocate(8).order(ByteOrder.LITTLE_ENDIAN);
            finish.put(buf).rewind();
            h ^= finish.getLong();
            h *= m;
        }

        h ^= h >>> r;
        h *= m;
        h ^= h >>> r;

        buf.order(byteOrder);
        return h;

    }
}

模拟机器节点

public class Node<T> {
    private String ip;
    private String name;

    public Node(String ip, String name) {
        this.ip = ip;
        this.name = name;
    }

    public String getIp() {
        return ip;
    }

    public void setIp(String ip) {
        this.ip = ip;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    /**
     * 使用IP当做hash的Key
     *
     * @return String
     */
    @Override
    public String toString() {
        return ip;
    }
}

一致性hash算法

public class ConsistentHash<T> {
    // Hash函数接口
    private final IHashService iHashService;
    // 每个机器节点关联的虚拟节点数量
    private final int          numberOfReplicas;
    // 环形虚拟节点
    private final SortedMap<Long, T> circle = new TreeMap<Long, T>();

    public ConsistentHash(IHashService iHashService, int numberOfReplicas, Collection<T> nodes) {
        this.iHashService = iHashService;
        this.numberOfReplicas = numberOfReplicas;
        for (T node : nodes) {
            add(node);
        }
    }

    /**
     * 增加真实机器节点
     *
     * @param node T
     */
    public void add(T node) {
        for (int i = 0; i < this.numberOfReplicas; i++) {
            circle.put(this.iHashService.hash(node.toString() + i), node);
        }
    }

    /**
     * 删除真实机器节点
     *
     * @param node T
     */
    public void remove(T node) {
        for (int i = 0; i < this.numberOfReplicas; i++) {
            circle.remove(this.iHashService.hash(node.toString() + i));
        }
    }

    public T get(String key) {
        if (circle.isEmpty()) return null;

        long hash = iHashService.hash(key);

        // 沿环的顺时针找到一个虚拟节点
        if (!circle.containsKey(hash)) {
            SortedMap<Long, T> tailMap = circle.tailMap(hash);
            hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();
        }
        return circle.get(hash);
    }
}

测试类

public class TestHashCircle {
    // 机器节点IP前缀
    private static final String IP_PREFIX = "192.168.0.";

    public static void main(String[] args) {
        // 每台真实机器节点上保存的记录条数
        Map<String, Integer> map = new HashMap<String, Integer>();

        // 真实机器节点, 模拟10台
        List<Node<String>> nodes = new ArrayList<Node<String>>();
        for (int i = 1; i <= 10; i++) {
            map.put(IP_PREFIX + i, 0); // 初始化记录
            Node<String> node = new Node<String>(IP_PREFIX + i, "node" + i);
            nodes.add(node);
        }

        IHashService iHashService = new HashService();
        // 每台真实机器引入100个虚拟节点
        ConsistentHash<Node<String>> consistentHash = new ConsistentHash<Node<String>>(iHashService, 500, nodes);

        // 将5000条记录尽可能均匀的存储到10台机器节点上
        for (int i = 0; i < 5000; i++) {
            // 产生随机一个字符串当做一条记录，可以是其它更复杂的业务对象,比如随机字符串相当于对象的业务唯一标识
            String data = UUID.randomUUID().toString() + i;
            // 通过记录找到真实机器节点
            Node<String> node = consistentHash.get(data);
            // 再这里可以能过其它工具将记录存储真实机器节点上，比如MemoryCache等
            // ...
            // 每台真实机器节点上保存的记录条数加1
            map.put(node.getIp(), map.get(node.getIp()) + 1);
        }

        // 打印每台真实机器节点保存的记录条数
        for (int i = 1; i <= 10; i++) {
            System.out.println(IP_PREFIX + i + "节点记录条数：" + map.get(IP_PREFIX + i));
        }
    }
}

码农研究僧

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
一致性哈希算法的原理与应用剖析

这里写目录标题前言一致性哈希算法数据倾斜的问题代码应用前言这部分问题知识在面试中经常被问到，而且是高频中的高频场景拓展：要缓存某些数据，放在N台服务器，也就是将其平摊分配这些数据，达到一个缓存的效果。但是如果要找到这些数据的时候，是通过遍历全部服务器，就会失去缓存的意义原始的做法是对缓存项的key中进行哈希，之后value进行取模操作，决定分配数据在哪台服务器。如果要找这些数据的时候就不用遍历了hash% N，这个为具体的公式，主要是通过取模运算但这种算法会有缺陷，原本N台服务器已经缓存好数据
复制链接

扫一扫