pyppeteer爬取JavaScript渲染的动态网页问题总结及代码实现

最新推荐文章于 2024-07-20 17:12:48 发布

AkagiSenpai

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量4.5k

点赞数 4

分类专栏：爬虫文章标签： python 爬虫 pypeeteer

本文链接：https://blog.csdn.net/weixin_44176696/article/details/107232144

版权

前言 & 问题描述

今天在抓取网页数据的时候，遇到了一个非常普遍的问题，就是网页的数据是JavaScript渲染的，我们从html的源码中无法获得这些数据，这些数据是在执行JavaScript脚本之后，异步地渲染到页面上的。

比如我们想要爬取一个比赛网站的数据：http://live.win007.com/

我们通过浏览器F12（F12展示的是执行过JavaScript之后的html代码）可以很快的定位这些数据

在这里插入图片描述
但是我们无法使用常规的方法爬取到数据，比如我们使用requests来获取html源码，发现并不能获取数据：

import requests

# requests获取博客页面html文本
url = "http://live.win007.com/"
r = requests.get(url, headers=send_headers)
r.encoding = "utf-8"
html = r.text

print(html)

这和我们【查看网页源代码】是一样的，我们只能够浏览网页最初的模样，即如下图所示，当然是没有数据的，我们理所应当的在html源代码里面也发现不了数据。
在这里插入图片描述

短暂的执行JavaScript之后，才能正常显示数据，JavaScript改变了一些标签的innerHtml，导致页面数据变化

在这里插入图片描述
综上所述，我们需要找到一种解决方案，使得爬虫能够返回JavaScript执行后的html文本。

两种解决方案

人工分析

我们打开浏览器F12开发者模式，我们分析该页面的JavaScript脚本从那些URL请求数据，然后我们伪造一个这样的请求，就能够获取数据了，这个方法的优点是原生的request也可以做到，缺点是每个不同的网页，都要分析，很麻烦，而且请求返回的xml或者json数据，很难读，往往需要我们再次格式

最低0.47元/天解锁文章

AkagiSenpai

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
pyppeteer爬取JavaScript渲染的动态网页问题总结及代码实现

目录前言 & 问题描述两种解决方案人工分析”模拟“一个浏览器pyppeteer介绍初次尝试修改chromium下载源前言 & 问题描述今天在抓取网页数据的时候，遇到了一个非常普遍的问题，就是网页的数据是JavaScript渲染的，我们从html的源码中无法获得这些数据，这些数据是在执行JavaScript脚本之后，异步地渲染到页面上的。比如我们想要爬取一个比赛网站的数据：http://live.win007.com/我们通过浏览器F12（F12展示的是执行过JavaScript之后的
复制链接

扫一扫