在我刚学爬虫,爬取百度翻译时,就是因为找不到sign值而苦恼了一阵子,网上的资料是乱七八糟,要么直接就是放结果,要么就是自己说不明白。没有好好的分析一下sign值的由来。因此,我写了这篇博客来将我怎么找到sign值的经验分享给大家。让大家少走弯路。
如何确定url
确定url这一块是进行爬虫的第一步,确定URL的最简单的方法就是:找到你要下载资源的页面–>按F12–>点击network—>点击XHR(xml and http and request)–>然后刷新当前页面,就会出现下图的页面:
然后点击第二个文件,点击Headers,就会出现百度翻译的地址:
Request URL: https://fanyi.baidu.com/v2transapi?from=zh&to=en
如何确定请求头
请求头里面携带的数据都是关于浏览器的一些相关信息,服务器可以通过请求头来确定发送请求的是不是一个爬虫,从而达到一个反爬的效果。针对请求头的一些信息一般是从这三个方面来进行
- User-Agent(用户代理,表示是谁要服务器发送请求)
- Cookie(用户进入网站时,向服务器发送请求后,服务器返回过来的用户信息)
- Referer(防盗链,表示是由哪个网址跳转到这个页面的)
如果还不太清楚确定请求头,最简单的方法就是将Requests headers里面的信息全部复制到代码中
如何找到参数对应的值
百度翻译中携带的参数有以下这些参数,不难发现真正在变化的,除了query,就是sign
而query就是你要查询的内容,所以真正在变化的就是sign值。那怎么查找sign值了?
-
全局搜索sign,确定sign这个变量在哪个js文件中,
-
找到js文件后,在文件中搜索sign。找到这个的sign的实现,当你找到sign的实现后,发现sign是由f(n)函数实现的
-
通过设置断点,刷新页面,将鼠标悬浮到f(n)函数上就会出现f(n)函数的实现以及js中的位置
-
点击这个地址,就是进入到f(n) 函数的具体实现中。进入到函数的具体实现后,就要确定函数的范围,确定函数范围就需要你掌握js的知识,我就直接贴出你要复制的内容
function a(r) {
if (Array.isArray(r)) {
for (var o = 0, t = Array(r.length); o < r.length; o++)
t[o] = r[o];
return t
}
return Array.from(r)
}
function n(r, o) {
for (var t = 0; t < o.length - 2; t += 3) {
var a = o.charAt(t + 2);
a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
}
return r
}
function e(r) {
var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
if (null === o) {
var t = r.length;
t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
} else {
for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
"" !== e[C] && f.push.apply(f, a(e[C].split(""))),
C !== h - 1 && f.push(o[C]);
var g = f.length;
g > 30 && (r = f.slice(0, 10).join("") + f