关于URL去重-MD5算法步骤

URL去重-MD5算法学习笔记

URL去重-MD5算法学习笔记

在网络爬虫过程中,会爬取到很多相同的url,这个时候就需要我们去掉重复的URL。关于URL去重的算法有很多,刚刚学习了MD5算法。MD5算法是基于Hash的算法。所以首先说说Hash算法。

Hash算法

对于爬取下来的URL,可以基于Hash函数进行存储,也就是一个URL 经过Hash函数,映射到散列表中的一个具体的物理位置上。每次只要计算刚刚爬取下来的URL是否已经存在,就可以了。这样做,有两个问题。

  1. 主要依赖于Hash函数。如果Hash函数设计的不好,在进行映射的时候,发生碰撞的几率很大,则再进行碰撞的处理也非常复杂。
  2. 未经处理的URL有可能占用很大的存储空间

MD5算法

MD5算法是一种加密算法,同时它也是基于Hash的算法。**首先对URL字符串进行压缩,得到一个压缩字符串,解决了URL 占用很大存储空间的问题。**同时可以直接得到一个Hash地址。MD5进行Hash映射碰撞的几率非常小。

MD5算法的具体步骤

MD5算法:以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值