爬虫系列之百度翻译

最新推荐文章于 2023-05-06 22:33:15 发布

爱哭的小孩-boy

最新推荐文章于 2023-05-06 22:33:15 发布

阅读量2k

点赞数 13

分类专栏： python 安装逻辑爬虫文章标签： python js

本文链接：https://blog.csdn.net/weixin_43849866/article/details/114633151

版权

在我刚学爬虫，爬取百度翻译时，就是因为找不到sign值而苦恼了一阵子,网上的资料是乱七八糟，要么直接就是放结果，要么就是自己说不明白。没有好好的分析一下sign值的由来。因此，我写了这篇博客来将我怎么找到sign值的经验分享给大家。让大家少走弯路。

如何确定url

确定url这一块是进行爬虫的第一步,确定URL的最简单的方法就是：找到你要下载资源的页面–>按F12–>点击network—>点击XHR(xml and http and request)–>然后刷新当前页面，就会出现下图的页面:

确定url地址
然后点击第二个文件，点击Headers,就会出现百度翻译的地址:
Request URL: https://fanyi.baidu.com/v2transapi?from=zh&to=en
在这里插入图片描述

如何确定请求头

请求头里面携带的数据都是关于浏览器的一些相关信息，服务器可以通过请求头来确定发送请求的是不是一个爬虫，从而达到一个反爬的效果。针对请求头的一些信息一般是从这三个方面来进行

User-Agent（用户代理，表示是谁要服务器发送请求）
Cookie（用户进入网站时，向服务器发送请求后，服务器返回过来的用户信息）
Referer（防盗链，表示是由哪个网址跳转到这个页面的）
如果还不太清楚确定请求头，最简单的方法就是将Requests headers里面的信息全部复制到代码中

如何找到参数对应的值

百度翻译中携带的参数有以下这些参数,不难发现真正在变化的，除了query，就是sign

在这里插入图片描述
而query就是你要查询的内容，所以真正在变化的就是sign值。那怎么查找sign值了？

全局搜索sign，确定sign这个变量在哪个js文件中,
找到js文件后，在文件中搜索sign。找到这个的sign的实现,当你找到sign的实现后，发现sign是由f(n)函数实现的
通过设置断点，刷新页面，将鼠标悬浮到f(n)函数上就会出现f(n)函数的实现以及js中的位置
点击这个地址，就是进入到f(n) 函数的具体实现中。进入到函数的具体实现后，就要确定函数的范围,确定函数范围就需要你掌握js的知识，我就直接贴出你要复制的内容

function a(r) {
   
   if (Array.isArray(r)) {
   
      for (var o = 0, t = Array(r.length); o < r.length; o++)
                t[o] = r[o];
            return t
        }
        return Array.from(r)
    }
    function n(r, o) {
   
        for (var t = 0; t < o.length - 2; t += 3) {
   
            var a = o.charAt(t + 2);
            a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
            a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
            r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
        }
        return r
    }
    function e(r) {
   
        var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
        if (null === o) {
   
            var t = r.length;
            t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
        } else {
   
            for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
                "" !== e[C] && f.push.apply(f, a(e[C].split(""))),
                C !== h - 1 && f.push(o[C]);
            var g = f.length;
            g > 30 && (r = f.slice(0, 10).join("") + f

最低0.47元/天解锁文章

爱哭的小孩-boy

关注

13
点赞
踩
39

收藏

觉得还不错? 一键收藏
5
评论
爬虫系列之百度翻译

目录如何确定url如何确定请求头如何找到参数对应的值百度翻译的源代码在我刚学爬虫，爬取百度翻译时，就是因为找不到sign值而苦恼了一阵子,网上的资料是乱七八糟，要么直接就是放结果，要么就是自己说不明白。没有好好的分析一下sign值的由来。因此，我写了这篇博客来将我怎么找到sign值的经验分享给大家。让大家少走弯路。如何确定url确定url这一块是进行爬虫的第一步,确定URL的最简单的方法就是：找到你要下载资源的页面–>按F12–>点击network—>点击XHR(xml and ht
复制链接

扫一扫