Python爬取动态数据

项目场景:

在做一个校园新闻小程序的时候,不仅需要获得新闻内容,同时还要获取点击量来排序。爬取静态的数据很简单,爬取动态的数据就有一点麻烦了。


问题描述

比如说我们在爬取这个网页的时候
在这里插入图片描述
打开开发者工具可以看到点击量
在这里插入图片描述
但是我们爬取来的内容确是这个样子的
在这里插入图片描述
点击量为什么会不显示呢?


原因分析:

我的理解是这样子的,因为点击量是随着网页的刷新要不断地改变的,而新闻内容是固定不变的。所以说点击量会由一个函数去不断更新,因此静态的网页内容不显示这个数据也在情理之中了。


解决方案:

要获取这样的数据,首先得找到这个数据。幸运地是,点击量这个数据比较的独一无二,是一个数字。当然你不能直接打开开发者工具就在在”元素“中检索,要找到产生这个数字的源头,这种动态数据一般会在“网络”中的XHR或者JS文件中找到,比如这样(记得刷新一下再找!)
在这里插入图片描述
在这一个乱七八糟的返回里面,我们要的点击量就在最后的几个click中。当然它现在不再是那个781了,但没有关系,我们很轻松地找到了它(大多数情况不是这样,但readClick这几个字实在是太显眼了!)
预览就是我们发送请求获得的数据,而点击量就放在这个数据的最后。那么我们现在只需要发送请求获得这个数据,再用正则表达式提取出点击量803就行了
这里是请求地址与方法POST
然后是请求的参数,这个参数有时候会在标头的最下面,但是这里并没有,其实负载就是这次请求的参数。
在这里插入图片描述
我们来分析一下参数。如果你只想获得这一个网页的动态数据,那么直接照抄就行了。

from sqlite3 import Date
import requests
import random, time, sys

headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29'
}
params = {
    'callCount':'1',
    'nextReverseAjaxIndex':'0',
    'c0-scriptName':'Ajax',
    'c0-methodName':'readClick',
    'c0-id':'0',
    'c0-param0':'string:1649408845878',
    'batchId':'0',
    'instanceId':'0',
    'page':'%2Fcolumn%2Fh_26_yi%2Fcontent%2F1649408845878.shtml',
    'scriptSessionId':'5eSlySH4R9SBWHfCeP6lNqg1u0JcgKn5m1o/mvq5m1o-GDTnJP$nz'
}

res = requests.post('https://news.hutb.edu.cn/dwr/call/plaincall/Ajax.readClick.dwr', headers=headers, params=params)
print(res.text)

返回值
我们来分析一下这些参数。c0-param0与page在不同的新闻是有区别的,区别就在于他们是第几条新闻,参数就要怎么写,比如这条新闻网址是https://news.hutb.edu.cn/column/h_26_yi/content/1649408845878.shtml,那么最后的169408845878就是这两个参数的实参(可能这个数字也不是新闻 的条数,毕竟太大了!)
然后就是scriptSessionId,这个参数我在比较不同的新闻页时发现他们在’/‘之前的字符是相同的,不同的是’/‘后面的字符,于是我搜索了这个参数
在这里插入图片描述
我们来搜索一下’/'后面的参数
在这里插入图片描述
很明显这个参数是由当前时间与一个随机数决定的,而tokenify我认为是一个编码的函数,既然与随机数有关,那么我在传参时是不是可以忽略这个参数,随便写一个值呢,我们试一下:
在这里插入图片描述
结果是这样子
没有问题!

因此在爬取网页动态数据的时候,首先是找到这个值(因为有搜索选项,大部分时候都很容易找),然后就是参数,或者说负载的问题了。如果你要爬取多个页面的动态数据,那么将这些参数的意义,或者说他们的特征弄清楚则是很重要的,这样才能传正确的参数获得自己想要的数据。

  • 9
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值