爬虫前导知识

最新推荐文章于 2024-07-28 15:46:11 发布

宋晟濬

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量77

点赞数

分类专栏：笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_51294723/article/details/119299415

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#1.端口
每一个应用程序都有他们独立的标识这个标识我们称之为端口
Eg QQ发消息是QQ接收而不是微信呢
#2.通讯协议
TCP/IP 国际组织定义的通用的通信协议
HTTP 超文本传输协议通讯协议 80 html 超文本标记语言超文本(网页源代码html)
#3.网络模型
https = http + ssl 是以安全为目标的http通道 443

http的安全版本 ssl是用于web的安全传输协议
http和ssl是在应用层的
#4HTTP的请求和响应
1)General的全部
Request URL 请求的地址
Request Method 请求的方式（get post 一般我们看到的是啥请求方式就用啥请求方式但有时也要具体情况具体分析）
Status Code 状态码
静态加载的页面数据都在网页源码中
动态加载的页面 Requests URL(目标url)是需要去network中分析数据包才能找到的 response看响应的结果
2）Request Header
headers请求头 = {
请求方式目标url （不加）
Host: www.baidu.com 域名 (可加可不加)
Connection: keep-alive 长连接 (不加)
User-Agent: 用户代理(操作系统、浏览器和浏览器版本号) 一般是反反爬的第一步 (加)
Accept-Encoding: gzip, deflate (不加加了数据可能会出现问题)
Cookie:xxx 记录了服务器与用户的信息 (加不加看情况) 一般有时间限制
Referer:xxx 页面跳转记录了当前页面是由哪个页面(url)过来的 (加不加看情况)
}

3)Response Header
Query String Parameters
有url中的所有参数

#5爬虫的介绍
爬虫：代替人模拟浏览器去访问和获取互联网上信息的一个小程序
爬虫的分类；
通用网络爬虫 eg baidu google
聚焦网络爬虫到互联网上有选择有目的的去抓取特定的目标和相关主题内容
其他的：增量式、深层网络爬虫(不需要了解)
为什么要爬虫呢？
- 为其他程序提供数据源
- 数据分析
- AI人工智能

企业获取数据的方式？
- 公司自己有的数据
- 第三方数据平台
- 免费的大数据平台
- 付费的大数据平台
- 爬虫爬取的数据爬虫开发者

宋晟濬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫前导知识

#1.端口每一个应用程序都有他们独立的标识这个标识我们称之为端口Eg QQ发消息是QQ接收而不是微信呢#2.通讯协议TCP/IP 国际组织定义的通用的通信协议HTTP 超文本传输协议通讯协议 80 html 超文本标记语言超文本(网页源代码html)#3.网络模型https = http + ssl 是以安全为目标的http通道 443http的安全版本 ssl是用于web的安全传输协议http和ssl是在应用层的#4HTTP的请求和响应1)General的全部Re
复制链接

扫一扫