21天pyhton分布式爬虫--爬虫基础2

努力！努力！努力！

于 2020-06-09 15:07:06 发布

阅读量142

点赞数

分类专栏： python 文章标签： python http web

本文链接：https://blog.csdn.net/weixin_44336538/article/details/106640554

版权

13 篇文章 0 订阅

订阅专栏

http协议和Chrome抓包工具

HTTP协议：全称是hyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口号为80端口
HTTPS 协议：是HTTP协议的加密版本，在HTTP下加入了SSL层，服务器端口号是443端口

当用户在浏览器的地址中输入一个URL并按回车键后，浏览器会向HTTP服务器发送HTTP请求，HTTP请求主要分为"get"和“Poest两种方法”
当我们在浏览器中输入URL的时候，浏览器发送Request 请求去获取该网址的html文件，服务器把Response文件对象发送给浏览器
浏览器分析REsponse 中的HTML，发现其中引用了很多其他的问及爱你，比如images ,CSS JS文件。浏览器会自动再次发送Request 去获取图片CSS文件或者JS文件。
当所有的文件下载成功或，网页会提醒HTML语法结构，完整的显示出来了

URl是 Uniform Redource Locator的简写，为统一资源定位符
而一个URL由以下的几个部分构成
scheme://host:port/path/?query-string=xxx&anchor

scheme: 代表的是访问协议，一般为http或者https以及ftp等
host：主机名，域名，比如:www.baidu.com
port:端口号。当访问一个网站的时候，浏览器默认使用80端口
path：查找路径。www.baidu.com/trending/now,后面的trending/now
query-string：查找字符串。比如：www.baidu.com/s?wd=python，后面的wd=python
anchor:锚点，后台一般不用管，前端用来定位网页
在浏览器中请求一个url，浏览器会对这个url进行编码。除了英文字母，数字和部分符号外，其余的全部使用百分号+十六位进制码值进行编码。

关注