文章目录
课程内容导学
HTTP基本原理
URI
——Uniform Resource Identifier 统一资源标志符
URL
——Universal Resource Locator 统一资源定位符
URN
——Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源
(URL是URI的一个子集)
超文本Hypertext
含有指向其他资源链接内容的文本,浏览器里看到的网页就是超文本解析而成的,网页的源代码HTML可以叫做超文本
Hyper Text Transfer Protocol ,超文本传输协议HTTP
用于从网络传输超文本数据到本地浏览器的传送协议,能保证高效准确地传送超文本文档
Hyper Text Transfer Protocol over Secure Socket Layer
HTTPS——经过SSL加密的HTTP
HTTP请求过程:
浏览器与服务器建立TCP连接
> 浏览器向服务器发送请求命令
> 服务器收到请求并进行处理和解析
> 服务器向浏览器发送应答信息
> 服务器向浏览器发送数据
> 服务器关闭TCP连接
请求方法: GET和POST
区别: GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输,会包含在请求体中;GET请求提交的数据最多只有1024字节,而POST请求没有限制
Web网页基础
HTML
Hyper Text Markup Language ,超文本标记语言
用来描述网页的语言,构建网页的内容和结构
CSS
Cascading Style Sheets ,层叠样式表
目前唯一的网页页面排版样式标准,用于设计网页的样式和布局
JavaScript
简称JS,是一种脚本语言
用于实现网页的实时、动态、交互的页面功能
DOM
Document Object Model ,文档对象模型
DOM是中立于平台和语言的接口,它允许程序和脚本动态访问和更新文档的内容、结构和样式
HTML中,所有标签定义的内容都是节点,他们构成了一个HTML DOM树
网络爬虫的基本原理
爬虫概述
保存数据:
- TXT文本或JSON文本
- 数据库——mysql或MongoDB
- 远程服务器
Session与Cookies
用户在成功登录某个网站时,服务器会告诉客户端设置哪些Cookies信息,在后续访问页面时客户端会把Cookies发送给服务器,服务器再找到对应的Session加以判断,如果Session中的某些设置登录状态的变量是有效的,就证明用户处于登录状态,此时返回登录之后才可以查看的网页内容,浏览器再进行解析便可以看到了。