(博主温馨提示:点关注,不迷路。先赞后看,养成习惯。原创不易,支持一下呗。)
1 前言
在上一篇文章中,我们已经对爬虫有了一个初步认识。
在本篇文章中,我们将介绍一些关于爬虫的基础理论知识。
万丈高楼平地起,只有在了解了这些基本知识以后,才能够更好的学习后面的技术内容。
我们开始吧!
2 HTTP部分
2.1 URL
在我们编写爬虫的时候,首先都要明确我们的目标URL。
这里的URL指的是统一资源定位系统(uniform resource locator;URL)。
其实我们常说的网址就是URL的一种,只要我们仔细观察浏览器的地址栏部分,就可以看到某网站的URL的全部内容。
简单来讲,使用URL就能够帮助我们找到我们需要的资源和内容,就像我们要寄一封信首先要知道对方的地址一样,在浏览互联网上的资源也是一个道理。
2.2 HTTP和HTTPS
超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个请求-响应协议,能够帮助计算机之间传输超本文文档。
此协议类似于当你要写信的时候就必须在信封上根据我们已经规定好的固定的格式撰写,才能保证你的信能够准确地送到目的地。
HTTPS (全称:Hyper Text Transfer Protocol over Secure Socket Layer),一种安全版的HTTP,HTTPS 的安全基础是 SSL,因此加密的详细内容就需要 SSL。
在撰写爬虫的过程中,某些网站由于没有部署HTTPS需要的相关内容可能会导致不能正常的获取到页面。
2.3 HTTP请求
当我们打开浏览器,在地址栏中输入一个URL然后敲击回车的时候,我们就能够看见我们需要的网页。
这个过程其实就是一个HTTP请求的过程,我们对远端的服务器发送了一个请求,然后中间省略很多很多我们看不见的步骤,最终我们就能够请求到我们需要的东西。
最常用的请求有两种,分别是GET请求和POST请求。
- GET请求会直接向服务器发送一个普通请求用于请求页面,如果请求中需要参数将会直接包含在URL中。
- POST请求同样会向浏览器发送一个请求,不同的是这种请求的参数将不会在URL中出现,而且POST请求同样可以帮助我们发送一个文件给服务器。
在我们访问网页时到底发出了何种请求可以借助我们的浏览器开发者模式查看,这里我们使用谷歌浏览器做示范。
首先我们打开浏览器进入某宝的官方页面,然后开发者模式(F12),然后点击Network就能够看到下方图2的页面:
接着,我们刷新页面就可以看到多出了很多项,这里我们点击下方图片中的项目就能看见很多关于该次请求的信息:
图中的Request Menthod显示我们该次请求就是GET请求,Status Code表示请求结果,200表示请求成功。
与此同时,我们也可以点击其他的栏查看返回的信息,以及cookie信息等。
后续我们将会利用此抓包工具辅助我们进行爬虫的开发。
3 总结
我们本次总结了完成一个爬虫所需要的周边知识点。
如果你有任何问题都可以在评论区交流或者私信我,我将会第一时间回复你。
如果觉得本文对你有帮助,希望你给我一个关注点赞或者收藏留言转发,这将是我最大的动力!