Python 爬虫 | 猿人学第一题

最新推荐文章于 2024-02-20 16:39:34 发布

Python爬虫与数据分析

最新推荐文章于 2024-02-20 16:39:34 发布

阅读量262

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44623587/article/details/114649007

版权

爬虫专栏收录该内容

8 篇文章 1 订阅

订阅专栏

好久没有更新js逆向的文章了，之前分享过一个爬虫练习网站，之后我会将上面的题全部进行讲解，虽然很多公众号都有在做了，但是我还是要做，毕竟自己总结的才是最深刻的。

第一题：

http://match.yuanrenxue.com/match/1

1、环境

Python3.7、pyexecjs、requests

2、分析网站

在这里插入图片描述

目标就是将红框中的数据进行相加

这个网站只要你一打开开发者工具就会进行无限debugger，让你无法调试，直接右键点击行数，选择Never pause here即可跳过

在这里插入图片描述图2-2

在这里插入图片描述图2-3
很容易就可以找到数据接口如图2-3，分析一下这个请求

图2-4

请求中带了一个m参数，初步一看估计是MD5加时间戳

方法一：

接下来看看这个请求的调用栈如图2-5

在这里插入图片描述
图2-5

进入request，看到一行无法格式化的代码，如图2-6

在这里插入图片描述
图2-6

方法二：

做Js逆向有多种方法可以定位加密位置，直接查看调用栈的方法对于刚接触的人不好理解，我们还可以一步步调式到加密位置。

在这里插入图片描述图2-7

这个请求是xhr类型，对于xhr类型就打xhr断点

在这里插入图片描述

复制一部分url

在这里插入图片描述

xhr断点是只要网站发起的请求包含了目标字符串的就会被自动打下断点

在这里插入图片描述

刷新一下网站，自动打上了断点，先看旁边的调用栈，一个个看，很快就可以找到刚才的加密位置。

在这里插入图片描述

这行代码既然无法用开发者工具进行格式化就用其他工具，我用的网站是：http://tool.chinaz.com/tools/jsformat.aspx?qq-pf-to=pcqq.c2c

在这里插入图片描述

格式化后的代码也就一百多行，大概看一遍

在这里插入图片描述

很快就发现了参数m的生成逻辑，

var timestamp = Date.parse(new Date()) + 100000000;
 var m = oo0O0(timestamp.toString()) + window.f;
 var list = {
  "page": window.page,
  "m": m + '丨' + timestamp / 1000
 };

“m”由m + ‘丨’ + timestamp / 1000组成，

变量m由oo0O0(timestamp.toString()) + window.f赋值得到， window.f先不看，先查看oo0O0的逻辑，大致看一下就好了，不必每行代码都看懂

function oo0O0(mw) {
   ***window\***.b = '';
   for (var i = 0,
       len = ***window\***.***a\***.length; i < len; i++) {
     ***console\***.log(***window\***.***a\***[i]);
     ***window\***.b += ***String\***[***document\***.e + ***document\***.g](***window\***.***a\***[i][***document\***.f + ***document\***.h]() - i - ***window\***.***c\***)
   }
   var U = ['W5r5W6VdIHZcT8kU', 'WQ8CWRaxWQirAW=='];
   var J = function(o, E) {
     o = o - 0x0;
     var N = U[o];
     if (J['bSSGte'] === undefined) {
       var Y = function(w) {
         var m = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789+/=',
           T = ***String\***(w)['replace'](/=+$/, '');
         var A = '';
         for (var C = 0x0,
             b, W, l = 0x0; W = T['charAt'](l++);~W && (b = C % 0x4 ? b * 0x40 + W: W, C++%0x4) ? A += ***String\***['fromCharCode'](0xff & b >> ( - 0x2 * C & 0x6)) : 0x0) {
           W = m['indexOf'](W)
         }
         return A
       };
       var t = function(w, m) {
         var T = [],
           A = 0x0,
           C,
           b = '',
           W = '';
         w = Y(w);
         for (var R = 0x0,
             v = w['length']; R < v; R++) {
           W += '%' + ('00' + w['charCodeAt'](R)['toString'](0x10))['slice']( - 0x2)
         }
         w = decodeURIComponent(W);
         var l;
         for (l = 0x0; l < 0x100; l++) {
           T[l] = l
         }
         for (l = 0x0; l < 0x100; l++) {
           A = (A + T[l] + m['charCodeAt'](l % m['length'])) % 0x100,
             C = T[l],
             T[l] = T[A],
             T[A] = C
         }
         l = 0x0,
           A = 0x0;
         for (var L = 0x0; L < w['length']; L++) {
           l = (l + 0x1) % 0x100,
             A = (A + T[l]) % 0x100,
             C = T[l],
             T[l] = T[A],
             T[A] = C,
             b += ***String\***['fromCharCode'](w['charCodeAt'](L) ^ T[(T[l] + T[A]) % 0x100])
         }
         return b
       };
       J['luAabU'] = t,
         J['qlVPZg'] = {},
         J['bSSGte'] = !![]
     }
     var H = J['qlVPZg'][o];
     return H === undefined ? (J['TUDBIJ'] === undefined && (J['TUDBIJ'] = !(N, E)], J['qlVPZg'][o] = N) : N = H,
       N
   };
   eval(atob(***window\***['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));
   return ''

我看到eval、atob函数的时候就知道离答案不远了，eval可以运行JavaScript 字符串，atob则是关于base64的一个方法。打开开发者工具的console栏分别输入的有疑问的变量，结果如下图（我之后会出一个如何在开发者工具中就可以调试这种无法格式化的代码）

在这里插入图片描述

eval就是执行这一大段js代码

eval(atob(***window\***['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'))

就可以改写为

eval(atob(***window\***['b'])['replace']("mwqqppz", '\x27' + mw + '\x27'))

将这段js代码拿出来看看

在这里插入图片描述

格式化完看到了window.f在这里赋值了，并且确实是MD5加密，

在这里插入图片描述

var m = oo0O0(timestamp.toString()) + window.f;

oo0O0返回是空，则可以改写为

`var m = window.f`

分析到这里就可以了，把藏在eval中的js代码扣出来

在这里插入图片描述

把这个MD5加密封装一下，方便python调用在这里插入图片描述

3、实现爬取

import execjs
 import requests

 headers = {
  'Connection': 'keep-alive',
  'Pragma': 'no-cache',
  'Cache-Control': 'no-cache',
  'Accept': 'application/json, text/javascript, */*; q=0.01',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
  'Host': 'match.yuanrenxue.com',
  'X-Requested-With': 'XMLHttpRequest',
  'Referer': 'http://match.yuanrenxue.com/match/1',
  'Accept-Language': 'zh-CN,zh;q=0.9',
 }
 with open('第一题.js', 'r', encoding='gbk') as f:
   jstext = f.read()
 m = execjs.compile(jstext).call('get_m')
 data = {
   'page': 1,
   'm': m
 }
 url = f'http://match.yuanrenxue.com/api/match/1?page=1&m={m}'
 response = requests.get(url, headers=headers, data=data)
 print(response.json())

运行结果：

在这里插入图片描述

Python爬虫与数据分析

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫 | 猿人学第一题

好久没有更新js逆向的文章了，之前分享过一个爬虫练习网站，之后我会将上面的题全部进行讲解，虽然很多公众号都有在做了，但是我还是要做，毕竟自己总结的才是最深刻的。第一题：http://match.yuanrenxue.com/match/1目录：1、环境2、分析网站3、实现爬取1、环境Python3.7、pyexecjs、requests2、分析网站目标就是将红框中的数据进行相加这个网站只要你一打开开发者工具就会进行无限debugger，让你无法调试，直接右键点击行数，选择Never
复制链接

扫一扫