爬虫基本原理

课程内容导学

课程重点

HTTP基本原理

URI——Uniform Resource Identifier 统一资源标志符
URL——Universal Resource Locator 统一资源定位符
URN——Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源

(URL是URI的一个子集)

超文本Hypertext

含有指向其他资源链接内容的文本,浏览器里看到的网页就是超文本解析而成的,网页的源代码HTML可以叫做超文本

Hyper Text Transfer Protocol ,超文本传输协议HTTP

用于从网络传输超文本数据到本地浏览器的传送协议,能保证高效准确地传送超文本文档

Hyper Text Transfer Protocol over Secure Socket Layer
HTTPS——经过SSL加密的HTTP

HTTP请求过程:

浏览器与服务器建立TCP连接
> 浏览器向服务器发送请求命令
> 服务器收到请求并进行处理和解析
> 服务器向浏览器发送应答信息
> 服务器向浏览器发送数据
> 服务器关闭TCP连接

请求方法: GET和POST
区别: GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输,会包含在请求体中;GET请求提交的数据最多只有1024字节,而POST请求没有限制
请求方法

Web网页基础

HTML

Hyper Text Markup Language ,超文本标记语言
用来描述网页的语言,构建网页的内容和结构

CSS

Cascading Style Sheets ,层叠样式表
目前唯一的网页页面排版样式标准,用于设计网页的样式和布局

JavaScript

简称JS,是一种脚本语言
用于实现网页的实时、动态、交互的页面功能

DOM

Document Object Model ,文档对象模型
DOM是中立于平台和语言的接口,它允许程序和脚本动态访问和更新文档的内容、结构和样式
HTML中,所有标签定义的内容都是节点,他们构成了一个HTML DOM树

网络爬虫的基本原理

爬虫概述

保存数据:

  • TXT文本或JSON文本
  • 数据库——mysql或MongoDB
  • 远程服务器

Session与Cookies

session与cookies
用户在成功登录某个网站时,服务器会告诉客户端设置哪些Cookies信息,在后续访问页面时客户端会把Cookies发送给服务器,服务器再找到对应的Session加以判断,如果Session中的某些设置登录状态的变量是有效的,就证明用户处于登录状态,此时返回登录之后才可以查看的网页内容,浏览器再进行解析便可以看到了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CMCJR

新手小白,如有不当,敬请指正!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值