scrapy模拟浏览器爬取51job(动态渲染页面爬取)
scrapy模拟浏览器爬取51job51job链接网络爬虫时,网页不止有静态页面还有动态页面,动态页面主要由JavaScript动态渲染,网络爬虫经常遇见爬取JavaScript动态渲染的页面。动态渲染页面爬取,就是模拟浏览器的运行方式,可以做到在浏览器中看到是什么内容爬取的源码就是相应的内容,实现了可见即可爬。这个方法在爬虫过程中会打开一个浏览器 加载该网页,自动操作浏览器浏览各个网页,同时也可爬取加载的页面 HTML。用一句简单 而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页








