本章说明
在写取网络网络爬虫之前,我们还需要了解一些基础知识,如HTTP原理,网页的基础知识,爬虫的基本原理,Cookies的基本原理,在这一章,就先对HTTP等等先加以理解在介绍完以后进行实战说明!
HTTP协议
- URL : Uniform Resource Location (统一资源定位符)
URL是指:唯一能标识资源所在地,下面就以https://github.com/favicon.ico为例
在上述的链接中 https 是指访问资源所需的协议类型;接下来为访问路径,根目录,最后的 favicon 为资源名称。- HTTP 的全称是Hyper Text Transfer Protocol ,中文名叫作超文本传输协议,而HTTPS协议简单来说就是HTTP协议的加密版!
HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档(传送音乐,和图片等等)。我们在浏览器中输入一个U RL ,回车之后便会在浏览器中观察到页面内容。实际上这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来,模型如图下图所示。
下面开始实战说明
打开Chrome 浏览器,右击并选择“检查”项,即可打开浏览器的开发者工具。这里访问百度https://www.baidu.com/输入该URL后回车.
Request URL为请求的名称,一般会将URL 的最后一部分内容当作名称
Requests methods 为请求的方法,一般分为Get和Post方法
Requests status 为请求状态码,200代表请求成功
Remote Address 为远程服务器的地址和端口
Referrer Policy 为Referrer 判别策略
下一块还有请求头( Request Headers ) 、请求体( Request Body )等等。在这里只需要了解就好,在具体运用时将会详细介绍
网页的基本组成
用浏览器访问网站时, 页面各不相同,你有没有想过它为何会呈现这个样子呢?本节中,我们就来了解一下网页的基本组成、结构和节点等内容。
- HTML 5
HTML 是用来描述网页的一种语言, 其全称叫作Hype r Text Ma rkup Language ,即超文本标记语言。网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是HTML 。在和其中需要注意是”img“代表图片;"video" 代表视频
- CSS 3HTML 定义了网页的结构,但是只有HTML 页面的布局并不美观,可能只是简单的节点元素的排列,为了让网页看起来更好看一些,这里借助了css 。CSS ,全称叫作Cascading Style Sheets ,即层叠样式表。“层叠”是指当在HTML 中引用了数个样 式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。
- JavaScriptJavaScript ,简称JS , 是一种脚本语言。HTML 和css 配合使用, 提供给用户的只是一种静态信息,缺乏交互性。我们在网页里可能会看到一些交互和动画效果,如下载进度条、提示框、轮播图等,这通常就是JavaScript 的功劳。它的出现使得用户与信息之间不只是一种浏览与显示的关系,而是实现了一种实时、动态、交互的页面功能。 JavaScript 通常也是以单独的文件形式加载的,后缀为js . 例如: script src: "jquery-21.o. js">
在这里就不进行详细介绍,了解一点就行