一些关于爬虫的前导知识

最新推荐文章于 2024-06-21 12:33:31 发布

我不是欢乐多

最新推荐文章于 2024-06-21 12:33:31 发布

阅读量99

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_47850897/article/details/110879007

版权

进行数据通讯时一般需要三步
- 1.找到对方IP地址
- 2.数据发送到指定的应用程序上。为了标识这些应用程序，我们给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字，我们称之为端口。这里的端口我们一般叫做逻辑端口
- 3.定义通讯规则（协议）。

在这里插入图片描述

1.当用户在浏览器的地址栏输入一个URL并按回车键之后，浏览器就会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法
2.当我们在浏览器输入URL http://www.baidu.com 的时候，浏览器就会发送一个Request请求去获取 http://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。
3.浏览器分析Response中的html文件，发现其中引用了很多其他的文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
4.当所有的文件都下载成功之后，网页会根据HTML语法结构，完整的显示出来。
HTTP通信由两部分组成：客户端请求消息与服务器响应消息
- General
- Response Headers 服务器的响应
- Request Headers 服务器的请求
  - host
  - Connection keep-alive
  - User-agent
  - Referer
  - Cookie
- Query String Paramaters 参数信息

爬虫简介

什么是爬虫？
- 网络爬虫，又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
- 简单理解代替人去模拟浏览器进行网页操作
为什么需要爬虫?
- 提供数据源
- 数据分析
- AI人工智能（智能家居、无人驾驶、智能语音、智能导航、人脸识别……）