前言 & 问题描述
今天在抓取网页数据的时候,遇到了一个非常普遍的问题,就是网页的数据是JavaScript渲染的,我们从html的源码中无法获得这些数据,这些数据是在执行JavaScript脚本之后,异步地渲染到页面上的。
比如我们想要爬取一个比赛网站的数据:http://live.win007.com/
我们通过浏览器F12(F12展示的是执行过JavaScript之后的html代码)可以很快的定位这些数据
但是我们无法使用常规的方法爬取到数据,比如我们使用requests来获取html源码,发现并不能获取数据:
import requests
# requests获取博客页面html文本
url = "http://live.win007.com/"
r = requests.get(url, headers=send_headers)
r.encoding = "utf-8"
html = r.text
print(html)
这和我们【查看网页源代码】是一样的,我们只能够浏览网页最初的模样,即如下图所示,当然是没有数据的,我们理所应当的在html源代码里面也发现不了数据。
短暂的执行JavaScript之后,才能正常显示数据,JavaScript改变了一些标签的innerHtml,导致页面数据变化
综上所述,我们需要找到一种解决方案,使得爬虫能够返回JavaScript执行后的html文本。
两种解决方案
人工分析
我们打开浏览器F12开发者模式,我们分析该页面的JavaScript脚本从那些URL请求数据,然后我们伪造一个这样的请求,就能够获取数据了,这个方法的优点是原生的request也可以做到,缺点是每个不同的网页,都要分析,很麻烦,而且请求返回的xml或者json数据,很难读,往往需要我们再次格式