爬虫1---基础知识

一. URL与URI

URI (Uniform Resource Identifier)即统一资源标志符
URL (Uniform Resource Locator)即统一资源定位符
URN(Uniform Resource Name)即统一资源名称
在这里插入图片描述


二. 超文本

HyperText
浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签
比如:
·img显示图片
·p指定显示段落等
浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码HTML就可以称作超文本。


三. HTTP和HTTPS


四. 网页的组成

  1. HTML
    Hyper Text Markup Language,即超文本标记语言
    HTML是用来描述网页的一种语言
    不同类型的元素通过不同标签来表示
  2. CSS
    Casading Style Sheets,即层叠样式表
    “层叠”指当在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理
    “样式”指网页中文字大小,颜色,元素间距,排列等格式
    CSS是目前唯一的网页页面排版样式标准
  3. JAVASCRIPT
    JavaScript,是一种脚本语言
    在网页里看到的一些交互和动画效果 通常是利用JS实现
    JavaScript使得用户与信息之间不只是一种浏览与显示的关系
    而是实现了一种实时、动态、交互的页面功能

五. 节点树及节点间的关系

节点树中节点彼此拥有层级关系,顶点称为根
在这里插入图片描述


六. session 与 cookie

1.静态网页与动态网页

静态网页:

网页内容由HTML代码编写
文字,图片等内容均通过写好的HTML代码来指定
加载速度快,编写简单
但可维护性差,不能根据URL灵活多变地展示内容等

动态网页:

可以解析URL中参数的变化
关联数据库并动态呈现不同的页面内容,灵活多变
可以实现用户登录和注册的功能

现在遇到的大多数网页都是动态网页


2. 无状态HTTP

HTTP特性—无状态
是指HTTP协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态
这意味着如果后续需要处理前面的信息,则必须重传
这也导致需要额外传递一些前面的重复请求,才能获取后续响应
在这里插入图片描述

3. Session(会话)

其本身的含义是指有始有终的一系列动作/消息
比如打电话时,从拿起电话拨号到挂断电话这中间的一系列过程可以称为一个Session
在Web中,Session对象用来存储特定用户Session所需的属性及配置信息

4. Cookies

指某些网站为了辨别用户身份,进行Session跟踪而存储在用户本地终端上的数据

表面意思来说
会话Cookie就是把Cookie放在浏览器内存里,浏览器在关闭之后该Cookie即失效
持久Cookie则会保存到客户端的硬盘中,下次还可以继续使用,用于长久保持用户登录状态
严格来说
没有会话 Cookie 和持久 Cookie 之分
只是由Cookie的MaxAge或Expires字段决定了过期的时间

5. 其他

除非程序通知服务器删除一个Session,否则服务器会一直保留Session

由于关闭浏览器不会导致Cookie被删除, 这就需要服务器为Session设置一个失效时间,当距离客户端上一次使用Session的时间超过这个失效时间时,服务器就可以认为客户端已经停止了活动,才会把Session删除以节省存储空间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值