python破解email-protected(爬虫那点事)

最新推荐文章于 2024-05-01 15:24:05 发布

弹破庄周梦

最新推荐文章于 2024-05-01 15:24:05 发布

阅读量1.9k

点赞数 1

分类专栏：编程大数据挖掘文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44106555/article/details/126032204

版权

编程同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

大数据挖掘

2 篇文章 0 订阅

订阅专栏

"本文介绍了如何解析使用了百度CDN邮箱加密技术的网站，通过分析email-decode.min.js文件，揭示了解密过程。解密关键在于利用href属性后的内容和"data-cfemail"值，通过特定的异或算法还原原始信息。提供的Python代码演示了这一过程，强调了合法爬取的重要性。"

摘要由CSDN通过智能技术生成

python破解email-protected(爬虫那点事)

部分网站采用了百度CDN的邮箱加密技术，情况如下：

在这里插入图片描述

像这种情况便需要解密，全局搜索email-protection，发现解密js文件为email-decode.min.js，代码逻辑大致如下：

href属性#后内容和“data-cfemail”值都可以用以解密，可以随便用一个
先将字符串前两个字符从十六进制转换为十进制，作为key
之后将剩下的字符两两转为十进制，并与key异或，异或结果为十进制数，转为单个字符
所有字符拼接在一起即为解密后的信息

python代码如下：

# t1 = "87ecebe6f2f4a9e6ecf3e8f5eee2f4c7f7efe6f5eae6ece8eba9f2e9eeaae1f5e2eee5f2f5e0a9e3e2"
t1 = "6a01060b1f19440b011e0518030f192a1a020b18070b010506441f0403470c180f03081f180d440e0f"

# 十六进制转十进制
def ox2dec(ox:str):
    return int(ox,16)

def decode(to_decode:str):
    decode = []
    key = ox2dec(to_decode[:2]) # 前两位为密钥
    data = []
    for i in range(2,len(to_decode),2):
        to_decode_i = ox2dec(to_decode[i:i+2])
        # print(to_decode_i,key)
        decode_i = to_decode_i^key # 十进制异或会先转二进制异或，结果再转回十进制
        decode.append(chr(decode_i)) # 十进制数转字符
    return "".join(decode)

print(decode(t1))