python爬虫第一讲爬虫前导知识上-CSDN博客

本文链接：https://blog.csdn.net/yerennuo/article/details/117367168

爬虫前导知识上

端口
通讯协议
网络模型
HTTP的请求和响应
爬虫简介

端口

我们想要进行数据通讯分为几步？

找到对方ip
数据发送到对方指定的应用程序上。每一个应用程序都有自己的独立的标识，这个标识我们称之为端口。这里的端口我们一般都叫做‘逻辑端口’

通讯协议

国际组织定义了通讯协议 TCP/IP协议
所谓协议就是计算机共同遵守的规定或规则
HTTP协议超文本传输协议 (就是一种通讯协议) 80
HTTPS？

网络模型

HTTPS = HTTP + SSL 443 是以安全为目标的HTTP通道

HTTP的请求和响应

https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F
https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F

General 全部的
Request URL 请求的地址
Request Method 请求的方法 (一般情况下 网站上是什么请求方式，我们爬虫的代码就写什么请求方式。但是有的时候也得具体情况具体分析 举例)
Status Code 状态码

如果是一些静态的页面 说白了数据都是在网页的源码里面 
如果是一些动态的页面 这个Request URL(目标url 你就得去分析 查找了 response去看响应的结果)


Response Headers 服务器的响应
Request Headers 客户端的请求  重点
Query String Parameters 参数

Request Headers 客户端的请求  重点

headers 请求头中{
    get 请求的方法 以及目标url的参数 不加

    host:www.baidu.com （主机和端口号 域名） 可加可不加

    Connection: keep-alive(保持长链接) 不加
    TCP三次握手原则

    User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36  用户代理 防止一些网站来检查ua 反反爬的第一步 加

    Accept-Encoding: gzip, deflate, br 不要添加了数据就会有问题
    
    Cookie:xxx 记录用户相关的信息 （视情况而定 是有时间限制的 ）
    
    referer：url地址的 (次级页面 url发起请求) 视情况而定 是有时间限制的
}