python爬虫基础快速入门概念篇

最新推荐文章于 2024-02-02 12:02:37 发布

Python大数据分析

最新推荐文章于 2024-02-02 12:02:37 发布

阅读量365

点赞数 1

分类专栏： python爬虫之从入门到入狱文章标签： python 大数据爬虫

本文链接：https://blog.csdn.net/weixin_55323831/article/details/119824245

版权

python爬虫之从入门到入狱专栏收录该内容

2 篇文章 0 订阅

订阅专栏

读书使人充实，讨论使人机智，笔记使人准确…。凡有所学，皆成性格。
———— （英国）培根

文章目录

爬虫的概念

模拟浏览器，发送请求，获取响应

爬虫的作用

1.数据采集

2.软件测试

3.抢票

4.投票

5.网络安全

爬虫的分类

网站的数量

是否获取数据

url与数据的关系

爬虫的流程

1.获取一个url

2.向url发送请求，并获取响应（需要http协议）

3.如果从响应中提取url，则继续发送请求获取响应

4.如果从响应中提取数据，则将数据进行保存

HTTP和HTTPS的区别

HTTPS比HTTP更安全，但性能更低

HTTP：HTTP 是一种超文本传输协议(Hypertext Transfer Protocol) 协议，它是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。默认端口80

HTTPS：只是在 HTTP 的基础之上增加了加密处理、认证机制和完整性保护，即 HTTPS = HTTP + 加密 + 认证 + 完整性保护 默认端口443

常见请求头

Accept: text/html,image/* – 浏览器接受的数据类型

Accept-Charset: ISO-8859-1 – 浏览器接受的编码格式

Accept-Encoding: gzip,compress --浏览器接受的数据压缩格式

Accept-Language: en-us,zh- --浏览器接受的语言

Host: www.it315.org:80 --（必须的）当前请求访问的目标地址（主机:端口）域名

Upgrade-Insecure-Requests: 升级为https请求

If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT --浏览器最后的缓存时间

Referer: http://www.it315.org/index.jsp – 当前请求来自于哪里页面跳转前地址反盗链（图片/视频）

User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) --浏览器类型用户代理，提供系统信息和浏览器信息

Cookie:name=eric – 浏览器保存的cookie信息

Connection: close/Keep-Alive – 浏览器跟服务器连接状态。close: 连接关闭 keep-alive：保存连接。长连接

Date: Tue, 11 Jul 2000 18:23:51 GMT – 请求发出的时间

Authorization:（用于HTTP协议需要认证资源的认证信息）

常见响应头

Location: http://www.it315.org/index.jsp -表示重定向的地址，该头和302的状态码一起使用。

Server:apache tomcat —表示服务器的类型

Content-Encoding: gzip – 表示服务器发送给浏览器的数据压缩类型

Content-Length: 80 --表示服务器发送给浏览器的数据长度

Content-Language: zh-cn --表示服务器支持的语言

Content-Type: text/html; charset=GB2312 --表示服务器发送给浏览器的数据类型及内容编码

Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT --表示服务器资源的最后修改时间

Refresh: 1;url=http://www.it315.org --表示定时刷新

Content-Disposition: attachment; filename=aaa.zip --表示告诉浏览器以下载方式打开资源（下载文件时用到）

Transfer-Encoding: chunked

Set-Cookie:SS=Q0=5Lb_nQ; path=/search --表示服务器发送给浏览器的cookie信息（会话管理用到）

Expires: -1 --表示通知浏览器不进行缓存

Cache-Control: no-cache

Pragma: no-cache

Connection: close/Keep-Alive --表示服务器和浏览器的连接状态。close：关闭连接 keep-alive:保存连接

HTTP状态码表示客户端HTTP请求的返回结果、标记服务器端的处理是否正常或者是出现的错误，能够根据返回的状态码判断请求是否得到正确的处理很重要。状态码由3位数字和原因短语组成

数字中的第一位指定了响应类别，后两位无分类，响应类别有一下5种：

状态码分类表

	类别	原因短语
1xx	Informational（信息性状态码）	接受的请求正在处理
2xx	Success（成功状态码）	请求正常处理完毕
3xx	Redirection（重定向）	需要进行附加操作以完成请求
4xx	Client error（客户端错误）	客户端请求出错，服务器无法处理请求
5xx	Server Error（服务器错误）	服务器处理请求出错

各类别常见状态码

2xx （3种）

200 OK	表示从客户端发送给服务器的请求被正常处理并返回
204 No Content	表示客户端发送给客户端的请求得到了成功处理，但在返回的响应报文中不含实体的主体部分（没有资源可以返回）
206 Patial Content	表示客户端进行了范围请求，并且服务器成功执行了这部分的GET请求，响应报文中包含由Content-Range指定范围的实体内容

3xx （5种

301 Moved Permanently	永久性重定向，表示请求的资源被分配了新的URL，之后应使用更改的URL
302 Found	临时性重定向，表示请求的资源被分配了新的URL，希望本次访问使用新的URL
303 See Other	表示请求的资源被分配了新的URL，应使用GET方法定向获取请求的资源
304 Not Modified	表示客户端发送附带条件（是指采用GET方法的请求报文中包含if-Match、If-Modified-Since、If-None-Match、If-Range、If-Unmodified-Since中任一首部）的请求时，服务器端允许访问资源，但是请求为满足条件的情况下返回改状态码
307 Temporary Redirect	临时重定向，与303有着相同的含义，307会遵照浏览器标准不会从POST变成GET；（不同浏览器可能会出现不同的情况）

301与302的区别：前者是永久移动，后者是临时移动（之后可能还会更改URL）

302与303的区别：后者明确表示客户端应当采用GET方式获取资源

4xx （4种）

400 Bad Request	表示请求报文中存在语法错误
401 Unauthorized	未经许可，需要通过HTTP认证
403 Forbidden	服务器拒绝该次访问（没有权限）
404 Not Found	表示服务器上无法找到请求的资源，除此之外，也可以在服务器拒绝请求但不想给拒绝原因时使用

5xx （2种）

500 Inter Server Error	表示服务器在执行请求时发生了错误，也有可能是web应用存在的bug或某些临时的错误时
503 Server Unavailable	表示服务器暂时处于超负载或正在进行停机维护，无法处理请求

所有状态码都不可信，一切以是否从抓包中得到的响应中获得到的数据为准

network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准

http请求的过程

1.浏览器在拿到域名对应的ip后，先向地址栏中的url发起请求，并获取响应

2.在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应

3.浏览器每获取一个响应就对展示出的结果进行加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应

4.从获取第一个响应并在浏览器中展示，直到终获取全部响应，并在展示的结果中添加内容或修改一一这个过程叫做浏览器的渲染

注意：

但是在爬虫中，爬虫只会语求ur地址，对应的拿url地址对应的响应（该响应的内容可以是html，css，js，图片等）

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，是因为爬虫不具备渲染的能力

浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果

所以在爬虫中，需要以发送请求的一个url址对应的响应为准来进行数据的提取

爬虫三大框架

骨骼文件	肌肉文件	皮肤
html静态文件	js/ajax请求	css/font/图片

Python大数据分析

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
python爬虫基础快速入门概念篇

爬虫的概念模拟浏览器，发送请求，获取响应爬虫的作用1.数据采集2.软件测试3.抢票4.投票5.网络安全爬虫的分类网站的数量是否获取数据url与数据的关系爬虫的流程1.获取一个url2.向url发送请求，并获取响应（需要http协议）3.如果从响应中提取url，则继续发送请求获取响应4.如果从响应中提取数据，则将数据进行保存HTTP和HTTPS的区别HTTPS比HTTP更安全，但性能更低HTTP：HTTP 是一种超文本传输协议(Hypertext Transfer Pro
复制链接

扫一扫