python网络爬虫知识点

本文介绍了HTTP协议的基本概念及其与HTTPS的区别,包括安全性、速度和端口差异。接着,探讨了网络爬虫的不同类型,如通用爬虫、聚焦爬虫等,并概述了数据爬取的四个步骤。此外,讲解了如何审查网页元素,以及Cookie在HTTP请求中的作用。最后,对比了GET和POST方法的区别,并列举了常见的HTTP状态码,如200、404和500等。
摘要由CSDN通过智能技术生成

1.什么是http协议?

http协议为超文本传输协议,通过浏览器和服务器进行数据交互,进行文本图片视频等传输的规定
2.http和https的区别?

  1. http是明文传输,数据未加密,安全性差;https经过加密,安全性高
  2. 用https需要申请证书,收费;http免费
  3. http的响应速度更快
  4. 两者 的端口不一样。http为80,https为443
  5. https更耗费服务器资源

3.什么是爬虫,有哪些分类?

爬虫是按照一定规则,自动抓取网络信息的程序或者脚本。

分类:

爬虫分为通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,累计式网络爬虫,深层网络爬虫
4.数据爬取的步骤有哪些?

获取网站数据->数据储存->数据处理->数据利用

通过网站的url及伪造header来获取数据

将数据存入本地临时数据库(可以是txt文件之类的)

因为数据驳杂无章,所以需要我们进行筛选来获取自己需要的数据

htmls = BeautifulSoup(html.text,"html.parser")
name = htmls.select("#content > div > div.article")

用自己获取到的数据做一些例如模型之类的东西

5.如何审查页面元素?

ctrl+shift+i快捷键打开开发者工具
6.什么是cookie?

类型为“小型文本文件”,是某些网站为了辨别用户身份,进行跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。

当header请求不成功时,可以试着在header字典里加上cookie及值
7、get方法和post方法的区别?

  1. GET产生一个TCP数据包;POST产生两个TCP数据包;
    对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据)
    对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)。
  2. GET在浏览器回退时是无害的,而POST会再次提交请求
  3. GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留
  4. GET请求只能进行url编码,而POST支持多种编码方式
  5. GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息

8.常见的状态码有哪些

 2XX——表明请求被正常处理了

1、200 OK:请求已正常处理。

2、204 No Content:请求处理成功,但没有任何资源可以返回给客户端,一般在只需要从客户端往服务器发送信息,而对客户端不需要发送新信息内容的情况下使用。

3、206 Partial Content:是对资源某一部分的请求,该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的GET请求。响应报文中包含由Content-Range指定范围的实体内容。

3XX——表明浏览器需要执行某些特殊的处理以正确处理请求

4、301 Moved Permanently:资源的uri已更新,你也更新下你的书签引用吧。永久性重定向,请求的资源已经被分配了新的URI,以后应使用资源现在所指的URI。

5、302 Found:资源的URI已临时定位到其他位置了,姑且算你已经知道了这个情况了。临时性重定向。和301相似,但302代表的资源不是永久性移动,只是临时性性质的。换句话说,已移动的资源对应的URI将来还有可能发生改变。

6、303 See Other:资源的URI已更新,你是否能临时按新的URI访问。该状态码表示由于请求对应的资源存在着另一个URL,应使用GET方法定向获取请求的资源。303状态码和302状态码有着相同的功能,但303状态码明确表示客户端应当采用GET方法获取资源,这点与302状态码有区别。

当301,302,303响应状态码返回时,几乎所有的浏览器都会把POST改成GET,并删除请求报文内的主体,之后请求会自动再次发送。

7、304 Not Modified:资源已找到,但未符合条件请求。该状态码表示客户端发送附带条件的请求时(采用GET方法的请求报文中包含If-Match,If-Modified-Since,If-None-Match,If-Range,If-Unmodified-Since中任一首部)服务端允许请求访问资源,但因发生请求未满足条件的情况后,直接返回304.。

8、307 Temporary Redirect:临时重定向。与302有相同的含义。

4XX——表明客户端是发生错误的原因所在。

9、400 Bad Request:服务器端无法理解客户端发送的请求,请求报文中可能存在语法错误。

10、401 Unauthorized:该状态码表示发送的请求需要有通过HTTP认证(BASIC认证,DIGEST认证)的认证信息。

11、403 Forbidden:不允许访问那个资源。该状态码表明对请求资源的访问被服务器拒绝了。(权限,未授权IP等)

12、404 Not Found:服务器上没有请求的资源。路径错误等。

5XX——服务器本身发生错误

13、500 Internal Server Error:貌似内部资源出故障了。该状态码表明服务器端在执行请求时发生了错误。也有可能是web应用存在bug或某些临时故障。

14、503 Service Unavailable:抱歉,我现在正在忙着。该状态码表明服务器暂时处于超负载或正在停机维护,现在无法处理请求。
————————————————
版权声明:本文为CSDN博主「Sara2018」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35689573/article/details/82120851

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值