学习爬虫第一天 了解基础的网页模式

第一天

了解客户端和服务端之间的通讯方式和联系

端口
我们通过ip找到相应的电脑 电脑里面有很多程序 我们找到某一个程序的手段就是依靠端口, 端口和ip有着一样的意思就是名字,标识 。只是作用的对象不一样
通讯协议
1 国际组织定义的通用协议是TCP/IP
2 所谓协议就是值两台计算机通信网络中两台计算机之间必须遵守的规定 相当于合同
3 HTTP又叫做超文本传输协议 HTTP的端口是80
网络模型
在这里插入图片描述
后期更新了新的参考模型 TCP/IP参考模型
在这里插入图片描述
送出就是一层一层的封包 接收就是一层一层的拆包 一层一层的读取
HTTPS
https = http+ssl 在http的基础上加上了SSL保护壳 信息的加密过程在SSL中完成
在这里插入图片描述
HTTP请求响应
HTTP通信由两部分组成:客户端请求消息与服务器响应消息 双向。客户端请求 服务端响应
爬虫是什么
爬虫就是代替人模拟浏览器去进行网页操作
爬虫的重要性
爬虫就是为了提供数据源 提供非常多的数据
爬虫的分类
通⽤⽹络爬⾍ 例如 baidu google yahu
聚焦⽹络爬⾍: 根据既定的⽬标有选择的抓取某⼀特定主题内容
增量式⽹络爬⾍: 指对下载⽹⻚采取增量式的更新和只爬⾏新产⽣的或者已经
发⽣变化的⽹⻚爬⾍
深层⽹络爬⾍: 指那些⼤部分内容不能通过静态链接获取的、隐藏在搜索表单
后的,只有⽤户提交⼀些关键词才能获得的web⻚⾯ 例如 ⽤户登录注册才能
访问的⻚⾯
我们一般学习的都是聚焦网络爬虫
get post
get请求方式是查询参数会在url中显示出来
post请求方式是查询参数和需要提交数据哦都是隐藏在form表单里,不会出现在url低智商
url
URL: 统⼀资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
https: 协议
new.qq.com: 主机名可以将主机理解为⼀台名叫 news.qq.com 的机器。这
台主机在 qq.com 域名下
port 端⼝号: 80 /new.qq.com 在他的后⾯有个 :80 可以省略
TWF20200/TWF2020032502924000.html 访问资源的路径
#anchor: 锚点⽤前端在做⻚⾯定位的
注意 : 在浏览器请求⼀个url,浏览器会对这个url进⾏⼀个编码。(除英⽂字
⺟、数字和部分标识其他的全部使⽤% 加 ⼗六进制码进⾏编码)
例如 : https://tieba.baidu.com/f?ie=utf-
8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王
user-agent
作用:记录用户的浏览器,操作系统等为了让用户更好的获取HTML页面效果
Refer
表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬技术
状态码
200 :请求成
301:永久重定向
302:临时重定向
403:浏览器拒绝请求
404:请求失败 服务器无法根据客户端的请求找到资源
500:服务器内部请求
抓包工具
Element:元素 网页源代码 有些数据经过特殊处理 所以并不是都是准确的
Console:控制台 可以打印信息
Source: 信息来源 整个网站加载的文件
NetWork:网络工作 基本上爬虫主要用到这个抓包工具 能够看到很多的网页请求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值