学习爬虫第一天了解基础的网页模式

最新推荐文章于 2024-09-17 19:14:46 发布

zhangfanweilai

最新推荐文章于 2024-09-17 19:14:46 发布

阅读量228

点赞数

文章标签： python

本文链接：https://blog.csdn.net/zhangfanweilai/article/details/112852530

版权

第一天

了解客户端和服务端之间的通讯方式和联系

端口
我们通过ip找到相应的电脑电脑里面有很多程序我们找到某一个程序的手段就是依靠端口，端口和ip有着一样的意思就是名字，标识。只是作用的对象不一样
通讯协议
1 国际组织定义的通用协议是TCP/IP
2 所谓协议就是值两台计算机通信网络中两台计算机之间必须遵守的规定相当于合同
3 HTTP又叫做超文本传输协议 HTTP的端口是80
网络模型
在这里插入图片描述
后期更新了新的参考模型 TCP/IP参考模型

送出就是一层一层的封包接收就是一层一层的拆包一层一层的读取
HTTPS
https = http+ssl 在http的基础上加上了SSL保护壳信息的加密过程在SSL中完成

HTTP请求响应
HTTP通信由两部分组成：客户端请求消息与服务器响应消息双向。客户端请求服务端响应
爬虫是什么
爬虫就是代替人模拟浏览器去进行网页操作
爬虫的重要性
爬虫就是为了提供数据源提供非常多的数据
爬虫的分类
通⽤⽹络爬⾍例如 baidu google yahu
聚焦⽹络爬⾍: 根据既定的⽬标有选择的抓取某⼀特定主题内容
增量式⽹络爬⾍: 指对下载⽹⻚采取增量式的更新和只爬⾏新产⽣的或者已经
发⽣变化的⽹⻚爬⾍
深层⽹络爬⾍: 指那些⼤部分内容不能通过静态链接获取的、隐藏在搜索表单
后的，只有⽤户提交⼀些关键词才能获得的web⻚⾯例如⽤户登录注册才能
访问的⻚⾯
我们一般学习的都是聚焦网络爬虫
get post
get请求方式是查询参数会在url中显示出来
post请求方式是查询参数和需要提交数据哦都是隐藏在form表单里，不会出现在url低智商
url
URL: 统⼀资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
https: 协议
new.qq.com: 主机名可以将主机理解为⼀台名叫 news.qq.com 的机器。这
台主机在 qq.com 域名下
port 端⼝号: 80 /new.qq.com 在他的后⾯有个 :80 可以省略
TWF20200/TWF2020032502924000.html 访问资源的路径
#anchor: 锚点⽤前端在做⻚⾯定位的
注意 : 在浏览器请求⼀个url,浏览器会对这个url进⾏⼀个编码。(除英⽂字
⺟、数字和部分标识其他的全部使⽤% 加⼗六进制码进⾏编码)
例如 : https://tieba.baidu.com/f?ie=utf-
8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王
user-agent
作用：记录用户的浏览器，操作系统等为了让用户更好的获取HTML页面效果
Refer
表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬技术
状态码
200 ：请求成
301：永久重定向
302：临时重定向
403：浏览器拒绝请求
404：请求失败服务器无法根据客户端的请求找到资源
500：服务器内部请求
抓包工具
Element：元素网页源代码有些数据经过特殊处理所以并不是都是准确的
Console：控制台可以打印信息
Source：信息来源整个网站加载的文件
NetWork：网络工作基本上爬虫主要用到这个抓包工具能够看到很多的网页请求