前言
这是本系列的第一篇文章,文如其题,这个系列旨在学习Python爬虫技术
本系列基于李宁老师的《Python爬虫技术:深入理解原理、技术与开发》一书,分28天完成阅读,大家可以在阅读书籍的同时,配合这一笔记,按照这一规划,有组织地学习这门技术
第1章 基础知识
第2章 爬虫基础
HTTP基础
URL与URI
URL:统一资源定位符,用于定位某一互联网资源名称的字符串
URI:统一资源标识符,用于标识某一互联网资源名称的字符串
从字面意义来看,二者鲜有不同,事实上,很多时候二者可以互换,例如页面链接https://geekori.com/edu/course.php?c_id=6表示在geekori.com上有一个页面,通过URL/URI指定了该页面的访问协议(https)、访问域名(geekori.com)、访问路径(/edu/course.php)和参数(?c_id=6)
既然名称不同,二者肯定有区别:URI除了包含URL外还有URN(统一资源名称),URN只命名资源而不指定如何获得资源,例如P2P下载中使用的磁力链接
超文本
在Web应用中,超文本主要是指HTML代码,由若干个节点组成
任何浏览器都可以查看当前页面的源代码,以Chrome为例,在页面右上角的下拉菜单中找到更多工具中的开发者工具,即可在Elements节点页查看当前页面的源代码
HTTP与HTTPS
这二者都属于协议的范畴,即数据传输协议、数据的传输格式或规范,除此之外还有ftp、sftp、smb等协议
HTTP:超文本传输协议,理论上可以传输任何类型的数据
HTTPS:安全的HTTP数据通道,即HTTP下加入SSL层,通过HTTPS传输的数据都是加密的,而通过HTTP传

本文是《Python爬虫技术:深入理解原理、技术与开发》的读书笔记,介绍了HTTP基础,包括URL与URI的区别、超文本概念、HTTP与HTTPS的对比,以及HTTP请求过程的详细解释,帮助读者建立爬虫学习的基础。
最低0.47元/天 解锁文章
1375

被折叠的 条评论
为什么被折叠?



