前言
这是本系列的第一篇文章,文如其题,这个系列旨在学习Python爬虫技术
本系列基于李宁老师的《Python爬虫技术:深入理解原理、技术与开发》一书,分28天完成阅读,大家可以在阅读书籍的同时,配合这一笔记,按照这一规划,有组织地学习这门技术
第1章 基础知识
第2章 爬虫基础
HTTP基础
URL与URI
URL:统一资源定位符,用于定位某一互联网资源名称的字符串
URI:统一资源标识符,用于标识某一互联网资源名称的字符串
从字面意义来看,二者鲜有不同,事实上,很多时候二者可以互换,例如页面链接https://geekori.com/edu/course.php?c_id=6表示在geekori.com上有一个页面,通过URL/URI指定了该页面的访问协议(https)、访问域名(geekori.com)、访问路径(/edu/course.php)和参数(?c_id=6)
既然名称不同,二者肯定有区别:URI除了包含URL外还有URN(统一资源名称),URN只命名资源而不指定如何获得资源,例如P2P下载中使用的磁力链接
超文本
在Web应用中,超文本主要是指HTML代码,由若干个节点组成
任何浏览器都可以查看当前页面的源代码