数据结构和算法-哈希

最新推荐文章于 2023-03-29 20:39:04 发布

zhuzi121121

最新推荐文章于 2023-03-29 20:39:04 发布

阅读量138

点赞数

分类专栏：算法文章标签：数据结构算法

本文链接：https://blog.csdn.net/zhuzi121121/article/details/108201347

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

哈希算法：
将任意长度的二进制值串映射为固定长度的二进制值串，这个映射的规则就是哈希算法

算法实现要求：

从哈希值不能反向推导出原始数据（所以哈希算法也叫单向哈希算法）
对输入数据非常敏感，哪怕原始数据只修改了一个 Bit，最后得到的哈希值也大不相同
散列冲突的概率要很小，对于不同的原始数据，哈希值相同的概率非常小
哈希算法的执行效率要尽量高效，针对较长的文本，也能快速地计算出哈希值

算法的应用场景：

安全加密
最常用于加密的哈希算法是 MD5（MD5 Message-Digest Algorithm，MD5 消息摘要算法）和 SHA（Secure Hash Algorithm，安全散列算法）
唯一标识
文件（图片）命名，检测文件是否存在
数据校验
下载文件|视频校验文件是否完整或被恶意修改
散列函数
散列函数是设计一个散列表的关键。它直接决定了散列冲突的概率和散列表的性能
负载均衡
负载均衡算法有很多，比如轮询、随机、加权轮询等
可以通过哈希算法，对客户端 IP 地址或者会话 ID 计算哈希值，将取得的哈希值与服务器列表的大小进行取模运算，最终得到的值就是应该被路由到的服务器编号。这样，我们就可以把同一个 IP 过来的所有请求，都路由到同一个后端服务器上
数据分片

如何统计“搜索关键词”出现的次数？假如我们有 1T 的日志文件，这里面记录了用户的搜索关键词，我们想要快速统计出每个关键词被搜索的次数，该怎么做呢？我们来分析一下。这个问题有两个难点，第一个是搜索日志很大，没办法放到一台机器的内存中。第二个难点是，如果只用一台机器来处理这么巨大的数据，处理时间会很长。针对这两个难点，我们可以先对数据进行分片，然后采用多台机器处理的方法，来提高处理速度。具体的思路是这样的：为了提高处理的速度，我们用 n 台机器并行处理。我们从搜索记录的日志文件中，依次读出每个搜索关键词，并且通过哈希函数计算哈希值，然后再跟 n 取模，最终得到的值，就是应该被分配到的机器编号。这样，哈希值相同的搜索关键词就被分配到了同一个机器上。也就是说，同一个搜索关键词会被分配到同一个机器上。每个机器会分别计算关键词出现的次数，最后合并起来就是最终的结果
如何快速判断图片是否在图库中？
如何快速判断图片是否在图库中？上一节我们讲过这个例子，不知道你还记得吗？当时我介绍了一种方法，即给每个图片取唯一标识（或者信息摘要），然后构建散列表。假设现在我们的图库中有 1 亿张图片，很显然，在单台机器上构建散列表是行不通的。因为单台机器的内存有限，而 1 亿张图片构建散列表显然远远超过了单台机器的内存上限。我们同样可以对数据进行分片，然后采用多机处理。我们准备 n 台机器，让每台机器只维护某一部分图片对应的散列表。我们每次从图库中读取一个图片，计算唯一标识，然后与机器个数 n 求余取模，得到的值就对应要分配的机器编号，然后将这个图片的唯一标识和图片路径发往对应的机器构建散列表。当我们要判断一个图片是否在图库中的时候，我们通过同样的哈希算法，计算这个图片的唯一标识，然后与机器个数 n 求余取模。假设得到的值是 k，那就去编号 k 的机器构建的散列表中查找