什么是 Ajax
Ajax,全称为 Asynchronous JavaScript and XML,即异步的 JavaScript 和 XML。它是一种利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。
Ajax 的优点
对于传统的网页,如果想更新其内容则必须刷新整个页面。有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。在此过程中,页面实际上在后台与服务器进行了数据交互,获取到数据之后,再利用 JavaScript 改变网页,这样网页内容就会更新了。如果网页的原始 HTML 不包含任何数据,数据都是通过 Ajax 统一加载后再呈现出来的,这在 Web 开发上可以做到前后端分离,并且降低服务器直接渲染页面带来的压力,也可以有效防止爬虫。
尝试抓取 Ajax 加载的页面
在看到浏览器中正常显示的页面之后,尝试使用 requests 抓取页面时,得到的结果如果和在浏览器中看到的不一样,可能是因为 requests 获取的是原始 HTML 文档,而浏览器中的页面是经过 JavaScript 数据处理后生成的结果,这些数据的来源可能是通过 Ajax 加载的。
如何抓取 Ajax 加载的页面
对于 Ajax,数据加载是一种异步加载方式,原始页面不会包含某些数据,只有在加载完后,才会向服务器请求某个接口获取数据,然后数据才被处理从而呈现到网页上,这个过程实际上就是向服务器接口发送了一个 Ajax 请求。此时我们需要分析网页后台向接口发送的 Ajax 请