头条_signature参数
2020-10-28更新
今天抓取西瓜的时候发现需要带cookie才能得到详情页的数据。熟悉的__ac_signature字段,熟悉的配方。应该是跟某条详情页一样。
正文开始
首先搜索参数出现的js文件
ctrl+f在js文件搜索_signature
可以看出_signature就是n,而j就是入口函数。跟进去
o是j函数的返回值,所以重点看1904行
改写一下
var o = window.byted_acrawler.sign(i)
我们需要在n.call(a,i)处打个断点跟进去
js文件不大,可以全部放进webstorm里。
简化一下
我们知道sign方法是window下的,所以我们打印一下是否有。
当然,此window不是浏览器中的window。node js中的window是global。
补环境
这个属性很熟悉。我们可以在调试的浏览器中找到。
我们一般可以window.document = {}或者
window.document = {referrer: “https://www.ixigua.com/”}
直接使用网站主页
可以看点window.BytedAcrawler下确实有sign方法
调用这个方式,然后接着补userAgent等。
可能碰到这个属性时都会有点懵逼
使用好哥哥教的插桩大法,其实就是打印值
这个可以看的更直观。
从而可以分析出z[S]为protocol时才能有length
这个太短!男人不能太短!
所以再找找别的原因。。
获取长_signature
当我们请求详情页的时候会返回一段代码,里面有一段js,很可疑。
格式化之后看的更清晰。
可以看出f3函数时设置cookie
var __ac_nonce = _f2("__ac_nonce");
__ac_signature = window.byted_acrawler.sign("", __ac_nonce);
这个就是__ac_signature 的来源。后面再说
改写一下f3函数,然后复制浏览器中的cookie
这样就能拿到想要的长_signature。。。
__ac_signature 获取
__ac_signature = window.byted_acrawler.sign("", __ac_nonce);
我们想要__ac_signature 就需要先拿到__ac_nonce。
我们先请求详情页,会返回__ac_nonce
拿到__ac_nonce之后调用window.byted_acrawler.sign("", __ac_nonce)
我们就可以得到__ac_signature 的值了
最后想要的数据拿到啦。。。。