python爬虫基础快速入门概念篇

读书使人充实,讨论使人机智,笔记使人准确…。凡有所学,皆成性格。
———— (英国)培根

爬虫的概念

模拟浏览器,发送请求,获取响应

爬虫的作用

1.数据采集

2.软件测试

3.抢票

4.投票

5.网络安全

爬虫的分类

网站的数量

是否获取数据

url与数据的关系

爬虫的流程

1.获取一个url

2.向url发送请求,并获取响应(需要http协议)

3.如果从响应中提取url,则继续发送请求获取响应

4.如果从响应中提取数据,则将数据进行保存

HTTP和HTTPS的区别

HTTPS比HTTP更安全,但性能更低

HTTP:HTTP 是一种超文本传输协议(Hypertext Transfer Protocol) 协议,它是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。默认端口80

HTTPS:只是在 HTTP 的基础之上增加了加密处理、认证机制和完整性保护,即 HTTPS = HTTP + 加密 + 认证 + 完整性保护 默认端口443

常见请求头

Accept: text/html,image/* – 浏览器接受的数据类型

Accept-Charset: ISO-8859-1 – 浏览器接受的编码格式

Accept-Encoding: gzip,compress --浏览器接受的数据压缩格式

Accept-Language: en-us,zh- --浏览器接受的语言

Host: www.it315.org:80 --(必须的)当前请求访问的目标地址(主机:端口)域名

Upgrade-Insecure-Requests: 升级为https请求

If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT --浏览器最后的缓存时间

Referer: http://www.it315.org/index.jsp – 当前请求来自于哪里 页面跳转前地址 反盗链(图片/视频)

User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) --浏览器类型 用户代理,提供系统信息和浏览器信息

Cookie:name=eric – 浏览器保存的cookie信息

Connection: close/Keep-Alive – 浏览器跟服务器连接状态。close: 连接关闭 keep-alive:保存连接。长连接

Date: Tue, 11 Jul 2000 18:23:51 GMT – 请求发出的时间

Authorization:(用于HTTP协议需要认证资源的认证信息)


常见响应头

Location: http://www.it315.org/index.jsp -表示重定向的地址,该头和302的状态码一起使用。

Server:apache tomcat —表示服务器的类型

Content-Encoding: gzip – 表示服务器发送给浏览器的数据压缩类型

Content-Length: 80 --表示服务器发送给浏览器的数据长度

Content-Language: zh-cn --表示服务器支持的语言

Content-Type: text/html; charset=GB2312 --表示服务器发送给浏览器的数据类型及内容编码

Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT --表示服务器资源的最后修改时间

Refresh: 1;url=http://www.it315.org --表示定时刷新

Content-Disposition: attachment; filename=aaa.zip --表示告诉浏览器以下载方式打开资源(下载文件时用到)

Transfer-Encoding: chunked

Set-Cookie:SS=Q0=5Lb_nQ; path=/search --表示服务器发送给浏览器的cookie信息(会话管理用到)

Expires: -1 --表示通知浏览器不进行缓存

Cache-Control: no-cache

Pragma: no-cache

Connection: close/Keep-Alive --表示服务器和浏览器的连接状态。close:关闭连接 keep-alive:保存连接


HTTP状态码表示客户端HTTP请求的返回结果、标记服务器端的处理是否正常或者是出现的错误,能够根据返回的状态码判断请求是否得到正确的处理很重要。状态码由3位数字和原因短语组成

数字中的第一位指定了响应类别,后两位无分类,响应类别有一下5种:

状态码分类表

类别原因短语
1xxInformational(信息性状态码)接受的请求正在处理
2xxSuccess(成功状态码)请求正常处理完毕
3xxRedirection(重定向)需要进行附加操作以完成请求
4xxClient error(客户端错误)客户端请求出错,服务器无法处理请求
5xxServer Error(服务器错误)服务器处理请求出错
各类别常见状态码

2xx (3种)

200 OK表示从客户端发送给服务器的请求被正常处理并返回
204 No Content表示客户端发送给客户端的请求得到了成功处理,但在返回的响应报文中不含实体的主体部分(没有资源可以返回)
206 Patial Content表示客户端进行了范围请求,并且服务器成功执行了这部分的GET请求,响应报文中包含由Content-Range指定范围的实体内容

3xx (5种

301 Moved Permanently永久性重定向,表示请求的资源被分配了新的URL,之后应使用更改的URL
302 Found临时性重定向,表示请求的资源被分配了新的URL,希望本次访问使用新的URL
303 See Other表示请求的资源被分配了新的URL,应使用GET方法定向获取请求的资源
304 Not Modified表示客户端发送附带条件(是指采用GET方法的请求报文中包含if-Match、If-Modified-Since、If-None-Match、If-Range、If-Unmodified-Since中任一首部)的请求时,服务器端允许访问资源,但是请求为满足条件的情况下返回改状态码
307 Temporary Redirect临时重定向,与303有着相同的含义,307会遵照浏览器标准不会从POST变成GET;(不同浏览器可能会出现不同的情况)

301与302的区别:前者是永久移动,后者是临时移动(之后可能还会更改URL)

302与303的区别:后者明确表示客户端应当采用GET方式获取资源

4xx (4种)

400 Bad Request表示请求报文中存在语法错误
401 Unauthorized未经许可,需要通过HTTP认证
403 Forbidden服务器拒绝该次访问(没有权限)
404 Not Found表示服务器上无法找到请求的资源,除此之外,也可以在服务器拒绝请求但不想给拒绝原因时使用

5xx (2种)

500 Inter Server Error表示服务器在执行请求时发生了错误,也有可能是web应用存在的bug或某些临时的错误时
503 Server Unavailable表示服务器暂时处于超负载或正在进行停机维护,无法处理请求

所有状态码都不可信,一切以是否从抓包中得到的响应中获得到的数据为准

network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准

http请求的过程

1.浏览器在拿到域名对应的ip后,先向地址栏中的url发起请求,并获取响应

2.在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应

3.浏览器每获取一个响应就对展示出的结果进行加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

4.从获取第一个响应并在浏览器中展示,直到终获取全部响应,并在展示的结果中添加内容或修改一一这个过程叫做浏览器的渲染

注意

但是在爬虫中,爬虫只会语求ur地址,对应的拿url地址对应的响应(该响应的内容可以是html,css,js,图片等)

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样,是因为爬虫不具备渲染的能力

浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果

所以在爬虫中,需要以发送请求的一个url址对应的响应为准来进行数据的提取

爬虫三大框架

骨骼文件肌肉文件皮肤
html静态文件js/ajax请求css/font/图片
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值