爬虫前导知识-Http请求与响应-NetWork怎么看-python爬虫知识点1

最新推荐文章于 2024-07-09 10:01:24 发布

洋芋本人

最新推荐文章于 2024-07-09 10:01:24 发布

阅读量1.3k

点赞数 3

分类专栏： python爬虫知识文章标签： python

本文链接：https://blog.csdn.net/weixin_43761516/article/details/115773071

版权

本文介绍了网络编程基础，重点讲解了HTTP请求与响应的组成、过程，以及HTTP方法。此外，还探讨了URL、请求方法的概念，详细解析了抓包工具NetWork的功能，包括其提供的各种信息。最后，简述了爬虫的基本概念、用途和Python爬虫的优势。

摘要由CSDN通过智能技术生成

一、网络编程基础

（1） 当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为 Get 和 Post 两种方法。

（2） 当我们在浏览器输入URL=http://www.baidu.com 的时候，浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。

（3） 浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

url

全球统一资源定位符
url当中的十六进制：在浏览器请求一个url,浏览器会对这个url进行一个编码。(除英文字母、数字和部分标识其他的全部使用% 加十六进制码进行编码)
- 例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
  %E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王
url实例： https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
- https:：协议
- new.qq.com：主机名
  以将主机理解为一台名叫 news.qq.com 的机器。这台主机在 qq.com 域名下
  port 端口号: 80 /new.qq.com 在他的后面有个 80 可以省略
- TWF20200/TWF2020032502924000.html：访问资源的路径
- #：anchor 锚点用前端在做页面定位的

关注