爬虫的原理
在输入网址后,你便可以在网页中看见各式各样的内容,有图片、视频及文本等。这是因为输入网址后DNS服务器寻找服务器主机,并且向它发送请求,服务器接收请求后解析并作出响应,将结果返回给浏览器,浏览器再将结果进行解析,这便是我们在网页中看到的内容。因此,爬虫的基本流程如下。
爬虫的基本流程
(1)发送请求
通过HTTP向站点发送Request请求,请求中包含header等信息。
(2)获取响应内容
若服务器正常响应,会返回一个Response响应,这就是我们要获取的内容。
(3)解析内容
得到的内容有几种形式。若是HTML,可以用正则表达式和页面解析库进行解析。若是Json,可转为Json对象解析。
(4)保存数据
可以将数据保存为各种形式,如数据库、文本等。