python爬虫第一讲爬虫前导知识上

端口

我们想要进行数据通讯分为几步?

  • 找到对方ip
  • 数据发送到对方指定的应用程序上。每一个应用程序都有自己的独立的标识,这个标识我们称之为端口。这里的端口我们一般都叫做‘逻辑端口’

通讯协议

  • 国际组织定义了通讯协议 TCP/IP协议
  • 所谓协议就是计算机共同遵守的规定或规则
  • HTTP协议 超文本传输协议 (就是一种通讯协议) 80
  • HTTPS?

网络模型

  • HTTPS = HTTP + SSL 443 是以安全为目标的HTTP通道

HTTP的请求和响应

https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F
https://www.baidu.com/s?wd=%E7%8E%8B%E5%85%88%E7%94%9F
​
General 全部的
Request URL 请求的地址
Request Method 请求的方法 (一般情况下 网站上是什么请求方式,我们爬虫的代码就写什么请求方式。但是有的时候也得具体情况具体分析 举例)
Status Code 状态码
​
如果是一些静态的页面 说白了数据都是在网页的源码里面 
如果是一些动态的页面 这个Request URL(目标url 你就得去分析 查找了 response去看响应的结果)
​
​
Response Headers 服务器的响应
Request Headers 客户端的请求  重点
Query String Parameters 参数
Request Headers 客户端的请求  重点
​
headers 请求头中{
    get 请求的方法 以及目标url的参数 不加
​
    host:www.baidu.com (主机和端口号 域名) 可加可不加
​
    Connection: keep-alive(保持长链接) 不加
    TCP三次握手原则
​
    User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36  用户代理 防止一些网站来检查ua 反反爬的第一步 加
​
    Accept-Encoding: gzip, deflate, br 不要添加了数据就会有问题
    
    Cookie:xxx 记录用户相关的信息 (视情况而定 是有时间限制的 )
    
    referer:url地址的 (次级页面 url发起请求) 视情况而定 是有时间限制的
}

爬虫简介

什么是爬虫?

简单一句话 就是代替人去模拟浏览器进行网页操作

为什么需要爬虫?

  • 为其它的程序提供数据源 (例如搜索引擎 应用)
  • 数据分析

快乐 才艺 搞笑 风景 … 种类 收藏 点赞 多少会有不同 视频 你喜欢什么?数据 分析
X音 广告越来越多了 直播带货非常火 原因是什么?
流量大
变现
热度(靠谱) 非常活跃
12306购票app 不太活跃

  • 人工智能

学习人工智能 (门槛太高了 1Python水平 高级开发者的水平 2 高等数学 )
科技公司 新加坡国立大学
智能家居 无人驾驶 人脸识别 智能语音…

公司获取数据的方式

  • 公司自有的

  • 第三方数据平台

免费的 百度指数
付费的 数据堂 贵阳大数据交易所

  • 爬虫开发工程师获取的数据

1 报错文档搜集(基础班去做 )成体系 成系统
2 解决方案文档搜集 (带着你们去总结)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yerennuo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值