1.爬虫基础——网页及网络请求

最新推荐文章于 2022-09-07 16:08:32 发布

jillypilly111

最新推荐文章于 2022-09-07 16:08:32 发布

阅读量291

点赞数

分类专栏：爬虫文章标签： python https

本文链接：https://blog.csdn.net/zizi_ydc/article/details/104364707

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、了解网页由html语言编写

在网页中右键单击检查会跳出该网页的源代码，点击源代码部分左上角的箭头，再点击网页中的任何一个模块，代码就会跳转到对应的部分啦！
在这里插入图片描述
在网页中右键单击检查会跳出该网页的源代码，我们不需要完全掌握html语言，只需要知道一下几点：

1.html语言由一个个标签<>组成

如下图
在这里插入图片描述

2.这些标签分为闭合标签和自闭合标签

a.闭合标签

对于<>标签，后面会有一个</>标签与之对应，如：
在这里插入图片描述
这里的<head 》与</head》对应

最开头的<html》和<body》也与代码对末尾部分的</html和</body对应，像这种闭合标签有很多，在代码中可以找到很多例子。

b.自闭合标签

现在我们以百度网页为例，点击源代码左上角的箭头，再点击百度的搜索框，代码会跳转到对应的这一行
在这里插入图片描述
这里的<input 就是一个自闭合标签，没有相应的</>与之对应. 后面的id、type等黄色字体就是这个标签涉及的属性。

二、了解网络请求

1.什么是网络请求

当我们在浏览器中输www.baidu.com点击确定弹出网页的这个过程中发生了什么？

首先，当我们输入www.baidu.com的时候，浏览器是看不懂的，于是它把域名传输给我们的运营商（移动、联通、电信），由运营商的DNS域名解析器获得百度这个网站的ip，并告诉我们这个IP，我们再用这个ip去访问百度的服务器（发送请求），最后百度的服务器就把百度的html网页发给我们，于是我们就可以用百度啦！（http请求）
这个过程可以形象的用下图表示
在这里插入图片描述