爬虫?crawler,按照一定规则来爬取网络上的信息的程序或者脚本。它可不是普通的虫子哟,切记切记切记!
爬虫就是获取信息的,那么你没学习之前,你会如何获取互联网信息呢?或许你会想直接找度娘,一切问题迎刃而解,
是的,你这样确实可以,如果你需要网页上的数据,超链接的数据,手动去弄会很累的,爬虫就能很好的实现自动化获取信息。
废话太多了,那么爬虫开始之前,我们需要做什么准备工作?
你不可能直接看到需求就开始写代码把,肯定先分析一波,理清一下思路呀,那么爬虫你首先要去网页的页面去分析,请求行为分析,这些确定之后,那么你可以写爬虫了。
那么怎么来分析网页页面呢?
一般我们是借用浏览器来分析。
我们打开如上图所示的界面,右击选择检查元素,这里选用的是谷歌浏览器
打开之后,我们可以查看我们的请求行为,在网络里面可以查看的
右边有元素(请求的页面描述),控制台(调试用的),调试程序,网络(可以查看请求头信息和响应头信息)等
请求头描述了客户端向服务器发送请求时使用的http协议类型,所使用的编码,以及发送内容的长度等等
相应的响应头用来描述服务器回给你对所返回的content的一些一些描述,我是什么服务器,我返回的是啥编码,我返回的内容有多长等等。
爬虫基本流程就是爬取-存储-分析,涉及的内容如下,后面会一一介绍