端口
我们想要进行数据通讯分为几步?
- 找到对方ip
- 数据发送到对方指定的应用程序上。每一个应用程序都有自己的独立的标识,这个标识我们称之为端口。这里的端口我们一般都叫做‘逻辑端口’
通讯协议
- 国际组织定义了通讯协议 TCP/IP协议
- 所谓协议就是计算机共同遵守的规定或规则
- HTTP协议 超文本传输协议 (就是一种通讯协议) 80
- HTTPS?
网络模型
- HTTPS = HTTP + SSL 443 是以安全为目标的HTTP通道
HTTP的请求和响应
https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F
https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F
General 全部的
Request URL 请求的地址
Request Method 请求的方法 (一般情况下 网站上是什么请求方式,我们爬虫的代码就写什么请求方式。但是有的时候也得具体情况具体分析 举例)
Status Code 状态码
如果是一些静态的页面 说白了数据都是在网页的源码里面
如果是一些动态的页面 这个Request URL(目标url 你就得去分析 查找了 response去看响应的结果)
Response Headers 服务器的响应
Request Headers 客户端的请求 重点
Query String Parameters 参数
Request Headers 客户端的请求 重点
headers 请求头中{
get 请求的方法 以及目标url的参数 不加
host:www.baidu.com (主机和端口号 域名) 可加可不加
Connection: keep-alive(保持长链接) 不加
TCP三次握手原则
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36 用户代理 防止一些网站来检查ua 反反爬的第一步 加
Accept-Encoding: gzip, deflate, br 不要添加了数据就会有问题
Cookie:xxx 记录用户相关的信息 (视情况而定 是有时间限制的 )
referer:url地址的 (次级页面 url发起请求) 视情况而定 是有时间限制的
}
爬虫简介
什么是爬虫?
简单一句话 就是代替人去模拟浏览器进行网页操作
为什么需要爬虫?
- 为其它的程序提供数据源 (例如搜索引擎 应用)
- 数据分析
快乐 才艺 搞笑 风景 … 种类 收藏 点赞 多少会有不同 视频 你喜欢什么?数据 分析
X音 广告越来越多了 直播带货非常火 原因是什么?
流量大
变现
热度(靠谱) 非常活跃
12306购票app 不太活跃
- 人工智能
学习人工智能 (门槛太高了 1Python水平 高级开发者的水平 2 高等数学 )
科技公司 新加坡国立大学
智能家居 无人驾驶 人脸识别 智能语音…
- …
公司获取数据的方式
-
公司自有的
-
第三方数据平台
免费的 百度指数
付费的 数据堂 贵阳大数据交易所
- 爬虫开发工程师获取的数据
1 报错文档搜集(基础班去做 )成体系 成系统
2 解决方案文档搜集 (带着你们去总结)