学习笔记(03):21天搞定分布式Python网络爬虫-HTTP协议介绍(1)

立即学习:https://edu.csdn.net/course/play/24756/280651?utm_source=blogtoedu

URL是Uniform Resource Locator的简写,统一资源定位符。 一个URL由以下几部分组成:    scheme://host:port/path/?query-string=xxx#anchor

1. scheme:代表的是访问的协议,一般为http或者https以及ftp等。

2. host:主机名,域名,比如www.baidu.com。

3. port:端口号。当你访问一个网站的时候,浏览器默认使用80端口。

4. path:查找路径。比如:www.jianshu.com/trending/now,后面的trending/now就是 path。

5. query-string:查询字符串,比如:www.baidu.com/s?wd=python,后面的wd=python 就是查询字符串。

6. anchor:锚点,前端用来做页面定位的。现在一些前后端分离项目,也用锚点来做导航。例如百度百科的知识页面
在浏览器中请求一个url,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外, 其他的全部使用百分号+十六进制码值进行编码。例如百度搜索时中文无法识别,查找路径部分会被转化成编码。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值