pyppeteer爬取JavaScript渲染的动态网页 问题总结及代码实现

前言 & 问题描述

今天在抓取网页数据的时候,遇到了一个非常普遍的问题,就是网页的数据是JavaScript渲染的,我们从html的源码中无法获得这些数据,这些数据是在执行JavaScript脚本之后,异步地渲染到页面上的。

比如我们想要爬取一个比赛网站的数据:http://live.win007.com/

我们通过浏览器F12(F12展示的是执行过JavaScript之后的html代码)可以很快的定位这些数据

在这里插入图片描述
但是我们无法使用常规的方法爬取到数据,比如我们使用requests来获取html源码,发现并不能获取数据:

import requests

# requests获取博客页面html文本
url = "http://live.win007.com/"
r = requests.get(url, headers=send_headers)
r.encoding = "utf-8"
html = r.text

print(html)

这和我们【查看网页源代码】是一样的,我们只能够浏览网页最初的模样,即如下图所示,当然是没有数据的,我们理所应当的在html源代码里面也发现不了数据。
在这里插入图片描述

短暂的执行JavaScript之后,才能正常显示数据,JavaScript改变了一些标签的innerHtml,导致页面数据变化

在这里插入图片描述
综上所述,我们需要找到一种解决方案,使得爬虫能够返回JavaScript执行后的html文本。

两种解决方案

人工分析

我们打开浏览器F12开发者模式,我们分析该页面的JavaScript脚本从那些URL请求数据,然后我们伪造一个这样的请求,就能够获取数据了,这个方法的优点是原生的request也可以做到,缺点是每个不同的网页,都要分析,很麻烦,而且请求返回的xml或者json数据,很难读,往往需要我们再次格式

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值