Python爬虫——网络结构基础

从0到1

本章说明

       在写取网络网络爬虫之前,我们还需要了解一些基础知识,如HTTP原理,网页的基础知识,爬虫的基本原理,Cookies的基本原理,在这一章,就先对HTTP等等先加以理解在介绍完以后进行实战说明!

HTTP协议

  • URL : Uniform Resource Location (统一资源定位符)

        URL是指:唯一能标识资源所在地,下面就以https://github.com/favicon.ico为例

在上述的链接中  https  是指访问资源所需的协议类型;接下来为访问路径,根目录,最后的 favicon  为资源名称。
  • HTTP 的全称是Hyper Text Transfer Protocol ,中文名叫作超文本传输协议,而HTTPS协议简单来说就是HTTP协议的加密版!

       HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档(传送音乐,和图片等等)。我们在浏览器中输入一个U RL ,回车之后便会在浏览器中观察到页面内容。实际上这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来,模型如图下图所示。

此处客户端即代表我们自己的P C 或手机浏览器,服务器即要访问的网站所在的服务器。
下面开始实战说明
打开Chrome浏览器进入百度一下界面

打开Chrome 浏览器,右击并选择“检查”项,即可打开浏览器的开发者工具。这里访问百度https://www.baidu.com/输入该URL后回车.

在右边这一块可以看到Elements这一块为HTML 5,JS和CSS等等代码。为了观察这个过程中发生了怎样的网络请求。点击Network,可以发现在Network 页面下方出现了一个个的条目,其中一个条目就代表一次发送请求和接收响应的过程,如下图

Request URL为请求的名称,一般会将URL 的最后一部分内容当作名称

Requests methods 为请求的方法,一般分为Get和Post方法

Requests status 为请求状态码,200代表请求成功

Remote Address 为远程服务器的地址和端口

Referrer Policy 为Referrer 判别策略

下一块还有请求头( Request Headers ) 、请求体( Request Body )等等。

在这里只需要了解就好,在具体运用时将会详细介绍

网页的基本组成

用浏览器访问网站时, 页面各不相同,你有没有想过它为何会呈现这个样子呢?本节中,我们就来了解一下网页的基本组成、结构和节点等内容。

  • HTML 5

HTML 是用来描述网页的一种语言, 其全称叫作Hype r Text Ma rkup Language ,即超文本标记语言。网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是HTML 。在和其中需要注意是”img“代表图片;"video" 代表视频

- CSS 3

HTML 定义了网页的结构,但是只有HTML 页面的布局并不美观,可能只是简单的节点元素的排列,为了让网页看起来更好看一些,这里借助了css 。CSS ,全称叫作Cascading Style Sheets ,即层叠样式表。“层叠”是指当在HTML 中引用了数个样 式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。

- JavaScript

JavaScript ,简称JS , 是一种脚本语言。HTML 和css 配合使用, 提供给用户的只是一种静态信息,缺乏交互性。我们在网页里可能会看到一些交互和动画效果,如下载进度条、提示框、轮播图等,这通常就是JavaScript 的功劳。它的出现使得用户与信息之间不只是一种浏览与显示的关系,而是实现了一种实时、动态、交互的页面功能。 JavaScript 通常也是以单独的文件形式加载的,后缀为js . 例如: script src: "jquery-21.o. js">

在这里就不进行详细介绍,了解一点就行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值