《Python爬虫技术:深入理解原理、技术与开发》读书笔记(一)

本文是《Python爬虫技术:深入理解原理、技术与开发》的读书笔记,介绍了HTTP基础,包括URL与URI的区别、超文本概念、HTTP与HTTPS的对比,以及HTTP请求过程的详细解释,帮助读者建立爬虫学习的基础。

前言

这是本系列的第一篇文章,文如其题,这个系列旨在学习Python爬虫技术
本系列基于李宁老师的《Python爬虫技术:深入理解原理、技术与开发》一书,分28天完成阅读,大家可以在阅读书籍的同时,配合这一笔记,按照这一规划,有组织地学习这门技术

第1章 基础知识

第2章 爬虫基础

HTTP基础

URL与URI

URL:统一资源定位符,用于定位某一互联网资源名称的字符串
URI:统一资源标识符,用于标识某一互联网资源名称的字符串
从字面意义来看,二者鲜有不同,事实上,很多时候二者可以互换,例如页面链接https://geekori.com/edu/course.php?c_id=6表示在geekori.com上有一个页面,通过URL/URI指定了该页面的访问协议(https)、访问域名(geekori.com)、访问路径(/edu/course.php)和参数(?c_id=6)
既然名称不同,二者肯定有区别:URI除了包含URL外还有URN(统一资源名称),URN只命名资源而不指定如何获得资源,例如P2P下载中使用的磁力链接

超文本

在Web应用中,超文本主要是指HTML代码,由若干个节点组成
任何浏览器都可以查看当前页面的源代码,以Chrome为例,在页面右上角的下拉菜单中找到更多工具中的开发者工具,即可在Elements节点页查看当前页面的源代码

HTTP与HTTPS

这二者都属于协议的范畴,即数据传输协议、数据的传输格式或规范,除此之外还有ftp、sftp、smb等协议
HTTP:超文本传输协议,理论上可以传输任何类型的数据
HTTPS:安全的HTTP数据通道,即HTTP下加入SSL层,通过HTTPS传输的数据都是加密的,而通过HTTP传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放牧星辰dmc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值