爬取百度翻译

踩点

首先进入网站 https://fanyi.baidu.com/?aldtype=16047#zh/en/

在这里插入图片描述

随便输入

在这里插入图片描述

目标:在程序里输入直接返回翻译结果

定位请求URL

由于网页未刷新,便可以更新网页内容,判断其为Ajax加载,按下F12,进入network选项,筛选XHR

在这里插入图片描述

刷新网页

在这里插入图片描述

我们发现有一个东西很可疑,可以看到它是一个post请求,往下滑,看一下请求数据

在这里插入图片描述

我们在data里面看到了输入的翻译文字,那肯定就是它了
先将请求url记下来 : https://fanyi.baidu.com/v2transapi?from=zh&to=en

在这里插入图片描述

然后挑一些请求头参数,先用 requests 试一下

import requests
import re


url = 'https://fanyi.baidu.com/v2transapi?from=zh&to=en'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36',
    'referer': 'https://fanyi.baidu.com/?aldtype=16047',
    'origin': 'https://fanyi.baidu.com',
    'cookie': 'BIDUPSID=BCD3E37271C1619126C5D6BBB322DC60; PSTM=1603001744; BAIDUID=BCD3E37271C1619156C43A509CC424FC:FG=1; REALTIME_TRANS_SWITCH=1; HISTORY_SWITCH=1; FANYI_WORD_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; PSINO=2; BA_HECTOR=akag8ha58g0g2437sn1fqce6m0p; H_PS_PSSID=32820_1453_33049_32941_31254_32706_32961_31709; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1604582586,1604729048,1604730231,1604730315; yjs_js_security_passport=272ae2ab3dcd6f77183a297227987af1b1d7705d_1604730483_js; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1604730580; __yjsv5_shitong=1.0_7_fe7cdb4b7cbc4c9c58587ffa98f2a16c6414_300_1604730579568_120.6.104.221_c74b0f32',
}


data = {
    'from': 'zh',
    'to': 'en',
    'query': '你好',
    'simple_means_flag': '3',
    'sign': '232427.485594',
    'token': '417277ffd2b32760906329552e7d639c',
    'domain': 'common'
}

response = requests.post(url,headers=headers,data=data)
print(response.text)

执行结果

在这里插入图片描述

我们发现请求成功了

寻找加密参数

虽然前面已经成功获取到了信息,但是那只是一个特例,我们需要更换一下待翻译文本,重新看一下,哪些参数发生了变化,哪些参数没有发生变化!

在这里插入图片描述

我们发现请求的url没有变

在这里插入图片描述

但是这个 sign 参数发生了变化,很显然,它就是加密参数了

在这里插入图片描述

仔细对比一下,发现确实只有一个sign发生了变化,但是第二次多了一个东西,为了确认一下这东西到底有没有用,我决定再输入一次“你好”

在这里插入图片描述

还有 ! 看一下 ,大意是 翻译类型:实时翻译,那就没事了,因为第一次是我们刷新网页刷出来的,可能那不算实时吧,我们给代码里面的data添加这个参数即可

接下来就只有一个 sign 参数了!

破解加密参数

  • 点击 search

在这里插入图片描述

  • 输入sign

在这里插入图片描述

  • 我们发现下面出来的内容有点多,我们可以肯定 sign 一定是个变量,因此一定有赋值操作,我们直接搜索 sign=

在这里插入图片描述

  • 这次结果大大减少了,我们一个一个进去看看,首先进入第一个,按Ctrl+F搜索sign

在这里插入图片描述

  • 可是找了半天没有发现可以的地方,绝大多数都是assign,这显然不是我们要找的,换下一个

在这里插入图片描述

  • 我们发现第二个也是一样,只有 assign,换第三个

在这里插入图片描述

  • 第三个更不可能是了,我们发现这样不行,没关系,赋值操作还有 : ,我们搜索一下 sign: , 点开第一个结果

在这里插入图片描述

  • 我们发现这个非常可疑,所有参数都在这里面出现了,那八九不离十。我们打上断点,调试一下,刷新网页:

在这里插入图片描述

  • 鼠标放在 y上面,会出来函数所在位置,我们点进去,跳转到函数位置:

在这里插入图片描述

  • 发现这个函数有一个参数r,我们点跳入下一个函数:

在这里插入图片描述

  • 发现参数 r 就是我们要查询的文字,直接将它复制下来

在这里插入图片描述

  • 给它传一下参数,运行一下:

在这里插入图片描述

  • 报错了,i 未定义,我们回到刚刚的调试,看一下 i 是什么:

在这里插入图片描述

  • 向下运行到 i 这一步,发现 i=window[l] 而上一行的 l,很明显是个定值 gtk

在这里插入图片描述

  • 所以推测 i 也是一个定值,这里先将 i 的值保存下来 "320305.131321201"
  • 终止调试,我们换一个翻译文字,来确认一下 i 是不是定值

在这里插入图片描述

  • 刚刚输入一个文字,就直接进入了调试,我们重复上述步骤,再次进入函数里面看一看 i

在这里插入图片描述

  • 可以看出 i 确实没有发生变化,那么我们便直接声明一个 var i = "320305.131321201"

在这里插入图片描述

  • 再次运行该 js 文件

在这里插入图片描述

  • 又报错了,这次是 n 未定义,我们再次去调试界面查看一下 n 是何方神圣

在这里插入图片描述

  • 我们把鼠标放在 n 上面,前往其所在位置:

在这里插入图片描述

  • 突然发现,它就在我们这个函数上面。。。。那就把它也拿到我们的代码中:

在这里插入图片描述

  • 再次运行一下:

在这里插入图片描述

  • 我们发现成功运行出结果,那么 sign 参数应该是破解成功了!

代码

  • 我们使用 execjs 模块,调用刚刚获取的 sign 参数的js代码,获取sign的值,再将data内的参数替换一下,便可以进行requests.post 了:
import requests
import re
import execjs


url = 'https://fanyi.baidu.com/v2transapi?from=zh&to=en'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36',
    'referer': 'https://fanyi.baidu.com/?aldtype=16047',
    'origin': 'https://fanyi.baidu.com',
    'cookie': 'BIDUPSID=BCD3E37271C1619126C5D6BBB322DC60; PSTM=1603001744; BAIDUID=BCD3E37271C1619156C43A509CC424FC:FG=1; REALTIME_TRANS_SWITCH=1; HISTORY_SWITCH=1; FANYI_WORD_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; PSINO=2; BA_HECTOR=akag8ha58g0g2437sn1fqce6m0p; H_PS_PSSID=32820_1453_33049_32941_31254_32706_32961_31709; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1604582586,1604729048,1604730231,1604730315; yjs_js_security_passport=272ae2ab3dcd6f77183a297227987af1b1d7705d_1604730483_js; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1604730580; __yjsv5_shitong=1.0_7_fe7cdb4b7cbc4c9c58587ffa98f2a16c6414_300_1604730579568_120.6.104.221_c74b0f32',
}

#读取js文件
def readJS(path):
    f = open(path,'r')
    code = f.read()
    f.close()
    return code


trans = input("请输入待翻译文本:")
# 编译js代码
ctx = execjs.compile(readJS('./sign.js'))
# 调用js的e函数,并传入参数trans
sign = ctx.call('e',trans)

data = {
    'from': 'zh',
    'to': 'en',
    'query': '%s'%trans,
    'transtype': 'realtime',
    'simple_means_flag': '3',
    'sign': '%s'%(str(sign)),
    'token': '417277ffd2b32760906329552e7d639c',
    'domain': 'common'
}

response = requests.post(url,headers=headers,data=data)
print(response.text)

  • 运行结果:

在这里插入图片描述

  • 我们发现翻译的句子,在这个里面,写个正则提取出来:
result = re.search('"dst":"(.*?)"',response.text)
print(result.group(1))
  • 运行结果:

在这里插入图片描述

  • 成功获取到翻译后的句子。

  • 总代码:

import requests
import re
import execjs


url = 'https://fanyi.baidu.com/v2transapi?from=zh&to=en'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36',
    'referer': 'https://fanyi.baidu.com/?aldtype=16047',
    'origin': 'https://fanyi.baidu.com',
    'cookie': 'BIDUPSID=BCD3E37271C1619126C5D6BBB322DC60; PSTM=1603001744; BAIDUID=BCD3E37271C1619156C43A509CC424FC:FG=1; REALTIME_TRANS_SWITCH=1; HISTORY_SWITCH=1; FANYI_WORD_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; PSINO=2; BA_HECTOR=akag8ha58g0g2437sn1fqce6m0p; H_PS_PSSID=32820_1453_33049_32941_31254_32706_32961_31709; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1604582586,1604729048,1604730231,1604730315; yjs_js_security_passport=272ae2ab3dcd6f77183a297227987af1b1d7705d_1604730483_js; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1604730580; __yjsv5_shitong=1.0_7_fe7cdb4b7cbc4c9c58587ffa98f2a16c6414_300_1604730579568_120.6.104.221_c74b0f32',
}

def readJS(path):
    f = open(path,'r')
    code = f.read()
    f.close()
    return code


while 1:
    trans = input("请输入待翻译文本:")
    if trans == '-1': #如果输入-1就退出
        break
    ctx = execjs.compile(readJS('./sign.js'))
    sign = ctx.call('e',trans)

    data = {
        'from': 'zh',
        'to': 'en',
        'query': '%s'%trans,
        'transtype': 'realtime',
        'simple_means_flag': '3',
        'sign': '%s'%(str(sign)),
        'token': '417277ffd2b32760906329552e7d639c',
        'domain': 'common'
    }

    response = requests.post(url,headers=headers,data=data)

    result = re.search('"dst":"(.*?)"',response.text)
    print(result.group(1))

  • sign.js
var i = "320305.131321201"

function n(r, o) {
    for (var t = 0; t < o.length - 2; t += 3) {
        var a = o.charAt(t + 2);
        a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
        a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
        r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
    }
    return r
}

function e(r) {
    var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
    if (null === o) {
        var t = r.length;
        t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
    } else {
        for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
            "" !== e[C] && f.push.apply(f, a(e[C].split(""))),
            C !== h - 1 && f.push(o[C]);
        var g = f.length;
        g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))
    }
    var u = void 0
      , l = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);
    u = null !== i ? i : (i = window[l] || "") || "";
    for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {
        var A = r.charCodeAt(v);
        128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)),
        S[c++] = A >> 18 | 240,
        S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224,
        S[c++] = A >> 6 & 63 | 128),
        S[c++] = 63 & A | 128)
    }
    for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++)
        p += S[b],
        p = n(p, F);
    return p = n(p, D),
    p ^= s,
    0 > p && (p = (2147483647 & p) + 2147483648),
    p %= 1e6,
    p.toString() + "." + (p ^ m)
}

//console.log(e("你好"))
  • 运行界面:

在这里插入图片描述

  • 29
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值