四.python中的哈希表

最新推荐文章于 2023-11-22 20:03:55 发布

xiaoyou137

最新推荐文章于 2023-11-22 20:03:55 发布

阅读量1k

点赞数 1

分类专栏：常见算法和数据结构的python实现文章标签：散列表 python 哈希算法

本文链接：https://blog.csdn.net/xiaoyou137/article/details/128845845

版权

常见算法和数据结构的python实现专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1.什么是哈希表

哈希表,是一种线性表的存储结构,由一个直接寻址表和一个哈希函数组成.
哈希函数h(k)将元素关键字k作为自变量,返回元素的存储下标
基本操作:
insert(key,value)
get(key)
delete(key)

直接寻址表:
当关键字的全域U比较小时,直接寻址是一种简单有效的方法
缺点:
当域U很大时,需要消耗大量内存,很不实际
如果域U很大而实际出现的key很少,则大量空间被浪费

直接寻址表+哈希函数就是哈希表
构建大小为m的寻址表T
key为k的元素放到h(k)位置上
h(k)是一个函数,其将域U映射到表T[0,1,…,m-1]

2.哈希冲突

由于哈希表大小有限,因此对于任何哈希函数,都会出现两个不同元素映射到同一个位置上的情况,这种情况叫做哈希冲突
解决方法:
1.开放寻址法(不太好)
如果哈希函数返回的位置上已经有值,则可以向后探查新的位置
线性探查: i + 1, i + 2, …
二次探查: i + 1^2, i - 1^2, i + 2^2, i - 2^2, …
二度哈希: 有n个哈希函数,当使用第1个哈希函数发生冲突时,则尝试使用h2,h3,…
2. 拉链法
哈希表每个位置都放一个链表,当冲突时,冲突的元素被加到该位置链表的最后

常见哈希函数:
除法哈希: h(k) = k % n
乘法哈希: h(k) = floor(m*(Akey%1))
全域哈希: h(K) = ((akey + b) % p) % m
a,b = 1,2,…,p-1

3.哈希表的实现(拉链法)

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: Xiang Hai
# wechat: xiaoyou42952

"""
哈希表的实现(拉链法)
"""


class Linklist:
    class Node:
        def __init__(self, item=None):
            self.item = item
            self.next = None

    class LinklistIterator:
        def __init__(self, node):
            self.node = node

        def __next__(self):
            if self.node:
                cur_node = self.node
                self.node = cur_node.next
                return cur_node.item
            else:
                raise StopIteration

        def __iter__(self):
            return self

    def __init__(self, iterable=None):
        self.head = None
        self.tail = None
        if iterable:
            self.extend(iterable)

    def append(self, obj):
        s = Linklist.Node(obj)
        if not self.head:
            self.head = s
            self.tail = s
        else:
            self.tail.next = s
            self.tail = s

    def extend(self, iterable):
        for obj in iterable:
            self.append(obj)

    def find(self, obj):
        for n in self:
            if n == obj:
                return True
        else:
            return False

    def __iter__(self):
        return self.LinklistIterator(self.head)

    def __repr__(self):
        return "<<"+",".join(map(str,self))+">>"

# lk = Linklist([1,2,3,4,5])
# print(lk)


# 类似于集合的结构
class HashTable:
    def __init__(self, size=101):
        self.size = size
        self.T = [Linklist() for i in range(self.size)]

    def h(self, k):
        return k % self.size

    def insert(self, k):
        i = self.h(k)
        if self.find(k):
            print("Duplicated Insert.")
        else:
            self.T[i].append(k)

    def find(self, k):
        i = self.h(k)
        return self.T[i].find(k)


ht = HashTable()
ht.insert(0)
ht.insert(1)
ht.insert(3)
ht.insert(102)
ht.insert(508)


print(",".join(map(str, ht.T)))

print(ht.find(3))

4.哈希表的应用

哈希表的应用–集合与字典

字典与集合都是通过哈希表实现
使用哈希表存储字典,通过哈希函数将字典的键映射为下标
如果发生哈希冲突,则通过拉链法或开放寻址法解决

哈希表的应用–MD5算法(已被破解,不再安全)

MD5(Message-Digest Algorithm 5) 曾经是密码学中常用的哈希函数,可以
把任意长度的数据映射为128位的哈希值
1. 同样的消息,其MD5值必定相同
2. 可以快速计算
3. 除非暴力枚举,否则不可能从哈希值反推出消息本身
4. 两条消息之间之间即使只有微小差别,其对应的MD5值也完全不同不相关
5. 不能在有意义的时间内人工构造两个不同的消息,使其具有相同的MD5值
应用:
文件的哈希值
1.验证下载文件的完整性
2.云存储服务商可以用来判断用户要上传的文件是否已经存在,从而实现秒传功能,避免存储过多相同文件副本

哈希表的应用–SHA2算法

SHA-2包含了一系列哈希函数:SHA-224,SHA-256, SHA-384,SHA-512,其对应的哈希值长度分别为224,256,384,512
SHA-2具有和MD5类似的性质
SHA-2的应用:
比特币:
在比特币系统中,所有参与者需要共同解决如下问题:
对于一个给定的字符串U,给定的目标哈希值H,需要计算出一个字符串V,
使得U+V的哈希值与H的差小于一个给定值D.此时,只能通过暴力枚举V来
进行猜测.
首先计算出结果的人可能获得一定奖金.而某人首先计算成功的概率与其拥有
的计算量成正比,所以其获得的奖金的期望值与其拥有的计算量成正比