上面一篇说到爬虫必须加上“隐身衣”(变换user-agent,proxyIP),“风火轮”(多线程加速)以及“复活药水”(被封后自动重启续爬)。
根据博主的经验,不伪装IP地址和useragent,开多线程完全是开玩笑,所以博主按照先加“隐身衣”,再加“复活药水”,最后加“风火轮”的步骤构建爬虫。
本篇介绍如何加“隐身衣”。
依然使用www.baidu.com。
想要爬取一个网站,首先要了解网站服务器的请求响应会返回什么,然后在它返回的内容中找到想要的东西。因为爬虫原理是模仿浏览器行为,因此,有必要先研究浏览器与网站服务器的交互。打开浏览器的开发者工具,选择Network选项卡,即查看浏览器与网站服务器的网络数据包流动情况。(火狐浏览器相应的有firebug,需要降低火狐的版本到40左右及以下(=。=记不清了,具体请百度),高版本的火狐不支持firebug,貌似firebug开发组和火狐不合作了??、、、(摔!))