python——网络爬虫快速入门【基础知识篇】

最新推荐文章于 2024-01-03 00:32:33 发布

Pointer-faker

最新推荐文章于 2024-01-03 00:32:33 发布

阅读量1k

点赞数 1

分类专栏： Python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44064134/article/details/108033742

版权

Python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

1.3 爬虫的本质

爬虫的本质是通过技术，模拟浏览器(这里的浏览器指广义上的浏览器，一切用http协议传输的app都可以被视为浏览器)的客户端向服务器发起请求，并通过相关数据对相关数据进行提取。

原则上来说，只要是客户端可以请求到的数据，我们用爬虫也可以拿到。

2. 爬虫入门

2.1 爬虫的基本知识

了解爬虫分类
了解robots协议
掌握爬虫流程

1.爬虫分类

爬虫主要分为两大类：

通用爬虫：通常指的是我们的搜索引擎，如：百度、搜狗、谷歌等
聚焦爬虫：针对特定网站的爬虫

2. robots协议

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的一般约定

一般网站的robot协议都会放在网站的根目录下的 robots.txt文件中
https://www.taobao.com/robots.txt (淘宝的robots协议)

robots协议是一个君子协议，它并不会限制开发者对网站进行数据爬取，PS: 爬虫有风险，爬取需谨慎！！！

3. 爬虫的流程

在这里插入图片描述

浏览器抓包基本知识

通过浏览器：鼠标右键检查，或者按F12进入浏览器控制台抓包

在这里插入图片描述

分析：

URL： URL（Uniform Resource Locator,统一资源定位器），它是WWW的统一资源定位标志，就是指网络地址。

请求分析：

Request URL: https://www.baidu.com/s?ie=utf-8&fr=bks0000&wd=URL%E6%A0%BC 【请求的url】

Request Method: GET 【请求的方式，同类还有POST, PUT, DELETE 等】

Status Code: 200 【状态码 200表示请求成功，同类还有2xx 请求成功, 3xx 重定向跳转或迁移 ,4xx 客户端错误(常见404，403) ,5xx 服务器错误（常见501 、 502）】

Remote Address: 14.215.177.38:443 【目标主机IP】

在这里插入图片描述

爬虫流程总结：

确定要爬取的url
发起请求
解析响应
提取数据
数据入库

爬虫的基本工作就是模拟浏览器的这些功能，不同的是浏览器会自动进行解析，而爬虫需要们手动进行解析，而浏览器会对数据进行渲染，爬虫对数据进行提取保存。

2.2 HTTP和HTTPS

1. http和https的概念

HTTP
- 超文本传输协议
- 默认端口号:80
HTTPS
- HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议
- 默认端口号：443

HTTPS比HTTP更安全，但是性能更低

2. 我们是如何通过http或者http协议发起请求的

阿里四面试题：

在这里插入图片描述

3. http请求和获取响应的过程

浏览器先向地址栏中的url发起请求，并获取相应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

注意： 这里必须要进行区分，网页源代码和网络请求返回来的响应是完全不相同的两回事

网页源码 ≠ 响应

4.http请求结构分析

在这里插入图片描述

在浏览器headers中，点击view source来具体观察其中的请求行，请求头部和请求数据是什么样子的

5.常见的响应状态码

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：找不到该页面
500：服务器内部错误
503：服务不可用，一般是被反爬

小结

记忆 http、https的概念和区别：
- http: 超本文传输协议
- https: HTTP + SSL，即带有安全套接字层的超本文传输协议
记忆浏览器发送http请求的过程:
- 浏览器先向地址栏中的url发起请求，并获取相应
- 在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
- 浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
- 从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改

记忆 http请求头的形式：

GET /item/503/1227315?fr=aladdin HTTP/1.1
Host: www.baidu.com
......

记忆 http响应头的形式 :

HTTP/1.1 200 OK
Connection: keep-alive
......

了解 http响应状态码
- 200：成功
- 302：临时转移至新的url

Pointer-faker

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录