爬虫基本原理

CMCJR

已于 2022-10-04 13:46:22 修改

阅读量325

点赞数 1

文章标签：爬虫

于 2022-09-16 08:23:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52135318/article/details/126775576

版权

netdata方法与工具专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

课程内容导学
HTTP基本原理
Web网页基础
网络爬虫的基本原理
- 爬虫概述
Session与Cookies

课程内容导学

课程重点

HTTP基本原理

URI——Uniform Resource Identifier 统一资源标志符
URL——Universal Resource Locator 统一资源定位符
URN——Universal Resource Name 统一资源名称，只命名资源而不指定如何定位资源

(URL是URI的一个子集)

超文本Hypertext

含有指向其他资源链接内容的文本，浏览器里看到的网页就是超文本解析而成的，网页的源代码HTML可以叫做超文本

Hyper Text Transfer Protocol ，超文本传输协议HTTP

用于从网络传输超文本数据到本地浏览器的传送协议，能保证高效准确地传送超文本文档

Hyper Text Transfer Protocol over Secure Socket Layer
HTTPS——经过SSL加密的HTTP

HTTP请求过程：

浏览器与服务器建立TCP连接
> 浏览器向服务器发送请求命令
> 服务器收到请求并进行处理和解析
> 服务器向浏览器发送应答信息
> 服务器向浏览器发送数据
> 服务器关闭TCP连接

请求方法： GET和POST
区别： GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输，会包含在请求体中；GET请求提交的数据最多只有1024字节，而POST请求没有限制
请求方法

Web网页基础

HTML

Hyper Text Markup Language ，超文本标记语言
用来描述网页的语言，构建网页的内容和结构

CSS

Cascading Style Sheets ，层叠样式表
目前唯一的网页页面排版样式标准，用于设计网页的样式和布局

JavaScript

简称JS，是一种脚本语言
用于实现网页的实时、动态、交互的页面功能

DOM

Document Object Model ，文档对象模型
DOM是中立于平台和语言的接口，它允许程序和脚本动态访问和更新文档的内容、结构和样式
HTML中，所有标签定义的内容都是节点，他们构成了一个HTML DOM树

网络爬虫的基本原理

爬虫概述

保存数据：

TXT文本或JSON文本
数据库——mysql或MongoDB
远程服务器

Session与Cookies

session与cookies
用户在成功登录某个网站时，服务器会告诉客户端设置哪些Cookies信息，在后续访问页面时客户端会把Cookies发送给服务器，服务器再找到对应的Session加以判断，如果Session中的某些设置登录状态的变量是有效的，就证明用户处于登录状态，此时返回登录之后才可以查看的网页内容，浏览器再进行解析便可以看到了。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄4年

24
原创

53
点赞

179
收藏

432
粉丝

关注

私信

热门文章

分类专栏

最新评论

java——编程案例
业火歌: 这不黑马程序员的吗
数据科学代码填空与解析
m0_67578392: 感谢分享，请问这是您考过的真题吗
CSS基础
CMCJR: 好的，谢谢你，已经修改了
CSS基础
RoxSzi: 有个错别字，清除a标签默认的下划线打成“清楚”了
CSS基础
RoxSzi: 有个错别字，浏览网页打成“留恋网页”了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CMCJR 新手小白，如有不当，敬请指正！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。