爬虫系列之百度翻译


在我刚学爬虫,爬取百度翻译时,就是因为找不到sign值而苦恼了一阵子,网上的资料是乱七八糟,要么直接就是放结果,要么就是自己说不明白。没有好好的分析一下sign值的由来。因此,我写了这篇博客来将我怎么找到sign值的经验分享给大家。让大家少走弯路。

如何确定url

确定url这一块是进行爬虫的第一步,确定URL的最简单的方法就是:找到你要下载资源的页面–>按F12–>点击network—>点击XHR(xml and http and request)–>然后刷新当前页面,就会出现下图的页面:

确定url地址
然后点击第二个文件,点击Headers,就会出现百度翻译的地址:
Request URL: https://fanyi.baidu.com/v2transapi?from=zh&to=en
在这里插入图片描述

如何确定请求头

请求头里面携带的数据都是关于浏览器的一些相关信息,服务器可以通过请求头来确定发送请求的是不是一个爬虫,从而达到一个反爬的效果。针对请求头的一些信息一般是从这三个方面来进行

  • User-Agent(用户代理,表示是谁要服务器发送请求)
  • Cookie(用户进入网站时,向服务器发送请求后,服务器返回过来的用户信息)
  • Referer(防盗链,表示是由哪个网址跳转到这个页面的)
    如果还不太清楚确定请求头,最简单的方法就是将Requests headers里面的信息全部复制到代码中
    请求头信息

如何找到参数对应的值

百度翻译中携带的参数有以下这些参数,不难发现真正在变化的,除了query,就是sign

在这里插入图片描述
而query就是你要查询的内容,所以真正在变化的就是sign值。那怎么查找sign值了?

  • 全局搜索sign,确定sign这个变量在哪个js文件中,
    在这里插入图片描述
    在这里插入图片描述

  • 找到js文件后,在文件中搜索sign。找到这个的sign的实现,当你找到sign的实现后,发现sign是由f(n)函数实现的
    在这里插入图片描述

  • 通过设置断点,刷新页面,将鼠标悬浮到f(n)函数上就会出现f(n)函数的实现以及js中的位置
    在这里插入图片描述

  • 点击这个地址,就是进入到f(n) 函数的具体实现中。进入到函数的具体实现后,就要确定函数的范围,确定函数范围就需要你掌握js的知识,我就直接贴出你要复制的内容

function a(r) {
   
   if (Array.isArray(r)) {
   
      for (var o = 0, t = Array(r.length); o < r.length; o++)
                t[o] = r[o];
            return t
        }
        return Array.from(r)
    }
    function n(r, o) {
   
        for (var t = 0; t < o.length - 2; t += 3) {
   
            var a = o.charAt(t + 2);
            a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
            a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
            r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
        }
        return r
    }
    function e(r) {
   
        var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
        if (null === o) {
   
            var t = r.length;
            t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
        } else {
   
            for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
                "" !== e[C] && f.push.apply(f, a(e[C].split(""))),
                C !== h - 1 && f.push(o[C]);
            var g = f.length;
            g > 30 && (r = f.slice(0, 10).join("") + f
  • 13
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值