Python爬虫实战——逆向破解签名型爬虫(有道词典)

签名验证反爬虫简介

  • 签名是根据数据源进行计算或加密过程,签名的结果是一个具有唯一性和一致性的字符串。签名结果的特征使得它成为验证数据来源和数据完整性条件,可以有效避免服务器端将伪造的数据或篡改的数据当成正常数据处理。
  • 签名验证是防止恶意连接和数据被篡改的有效方式之一,也是目前后端API最常用的防护手段之一。

逆向分析步骤

打开浏览器并访问 有道翻译

在这里插入图片描述

网页分析

在没有输入翻译内容之前,网页端是不会出现这些数据的,只有通过用户输入之后,才会出现翻译的内容。因此,判断这些翻译数据是通过异步加载出来的。
接下来,我们需要通过抓包进行分析了。如下图所示:
在这里插入图片描述
在这里插入图片描述

数据包分析

在这里插入图片描述
我们可以根据字段的名或者值进行猜测

  • action和keyfrom用来区分客户端类型。
  • sign、salt、lts是随机生成的用于反爬虫的字符串。
  • sign值的长度是32位的随机字符串,可能是MD5加密之后得到的结果。
  • salt与lts的值相似度很高,前者比后者多了一位数。经过多次测试发现,lts的值是用户在文本框中输入文字时的时间,因此,lts是时间戳。
  • salt的值比lts多一位,并且多出的值是0-9中随机生成的。

js文件分析

经过查找在fanyi.min.js中找到相对应的加密方式。
在这里插入图片描述
从上面的图片我们不难发现sign是由“fanyideskweb”、e、i和“Tbh5E8=q6U3EXe+&L[4c@”组合而成的字符串进行加密。

代码实现

md5加密python实现

def hex5(value):
    # 使用 MD5 加密值并返回加密后的字符串
    manipulator = hashlib.md5()
    manipulator.update(value.encode('utf-8'))
    return manipulator.hexdigest()

完成代码如下(仅测试所写):

import random
from time import time
from random import randint, sample
import hashlib

import requests

headers = {
    'Cookie': 'OUTFOX_SEARCH_USER_ID=-1927650476@223.97.13.65;',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36',
}


def hex5(value):
    # 使用 MD5 加密值并返回加密后的字符串
    manipulator = hashlib.md5()
    manipulator.update(value.encode('utf-8'))
    return manipulator.hexdigest()


def response(d):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    r = requests.post(url, data=d, headers=headers)
    print(r.text)


if __name__ == '__main__':
    date = str(int(time()*1000))
    date_le = str(int(time()*1000)) + str(random.randint(0, 9))
    word = '你好'
    data = {'i': word,
            'from': 'AUTO',
            'to': 'AUTO',
            'smartresult': 'dict',
            'client': 'fanyideskweb',
            'salt': date_le,
            'sign': hex5('fanyideskweb' + word + date_le + "Tbh5E8=q6U3EXe+&L[4c@"),
            'lts': date,
            'bv': hex5(headers.get('User-Agent')),
            'doctype': 'json',
            'version': '2.1',
            'keyfrom': 'fanyi.web',
            'action': 'FY_BY_REALTlME',
            }
    print(data)
    response(data)

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值