Python爬虫入门（DAY 3）解析HTML与web

最新推荐文章于 2024-05-27 17:00:50 发布

秋柴

最新推荐文章于 2024-05-27 17:00:50 发布

阅读量135

点赞数

文章标签： python 爬虫学习 html

本文链接：https://blog.csdn.net/weixin_56005867/article/details/130662571

版权

前置问题：如果大家使用requests.get（）或requests.post（）时，返回值是不是与大家预想的内容一致，我们的预计是返回我们需要的直观内容，比如文本，图片，但是实际上呢？返回值为200（资源存在），或者403（无权限访问），404（没有找到该文件），为什么呢？

这就要我们去了解浏览器的运行方式。当服务器收到浏览器传来的keyword时，会在站内进行模糊匹配（常见的标志我们后续会提到：.*？非贪婪匹配），在访问段的IP地址下进行投递包装好的数据包（简化，实际过程远远比这个复杂，感兴趣可以了解我之前的博客）（注意，是数据包），所以我们看到的最终内容其实是浏览器在站内解析后的内容，这时，大家就明白了，为什么会显示202，或者403，这只是得到了服务器端的状态，我们还需要继续对response进行解析。
大家使用requests.post（）.text，输出返回值，得到的内容是网页的HTML码，我们要做的，就是从这些HTML代码中，找到我们需要的内容（这我们之后在讲代码部分时会讲，我们现在主要是建立概念），需要对爬虫的response有一定了解。

一 HTML文档结构（具体了解可以看我之前的博客）

1.1什么是HTML

HTML是 HyperText Mark-up Language 的首字母简写，意思是超文本标记语言。通过HTML标记（标签）对网页中的文本、图片、多媒体等内容进行描述。
说明：
1.“超文本”：不仅能承载简单的文字、还能包含超链接、图片、音频、视频等。
2.“标记语言”：标记语言是由一套标记标签组成的

1.2 HTML结构

1.标签：由尖括号括起来的关键词
2.单标签：<标签名 >或 <标签名 />
3.双标签：<开始标签名>[内容]</结束标签名>
4.元素：标签及内容的整体
5.属性
<标签名属性名1="属性值1" 属性名2="属性值2"></标签名>
<后面的第一个单词叫做标签的名字，标签名空格之后的叫做标签的属性。
6.属性由属性名和属性值组成，属性名和属性值用等号连接
7.属性值用引号引起来。多个属性之间用空格隔开。

HTML文档的基本结构由以下四个部分组成：文档类型声明、HTML标签对、head标签对和body标签对。文档类型声明指的是告诉浏览器使用哪种HTML版本来解析页面的声明。在HTML5中，文档类型声明应该写为<!DOCTYPE html>。这个声明告诉浏览器，这个页面是使用HTML5编写的，浏览器应该使用HTML5的规则来解析和渲染页面。

HTML标签对是指HTML页面中的开始标签和结束标签，这些标签将页面的内容分为不同的部分。HTML标签对的格式是<开始标签>内容</结束标签>。其中，开始标签用于标识内容的类型和属性，结束标签用于标识内容的结束位置。例如，<p>标签用于标识段落，<img>标签用于插入图片，<a>标签用于创建链接等。

head标签对是指HTML页面中的<head>标签和</head>标签，这些标签用于包含页面的元数据，例如页面的标题、关键字、描述等。head标签对中的内容不会在页面上显示，但是这些内容对于搜索引擎优化和网页排名非常重要。

body标签对是指HTML页面中的<body>标签和</body>标签，这些标签用于包含页面的主要内容，例如文本、图片、视频等。body标签对中的内容会在页面上显示，是网页的核心部分。

除了这些基本结构，HTML页面还可以包含其他标签和元素，例如表格、表单、列表等。这些元素可以帮助我们更好地组织和呈现网页内容。这些元素的存在是为了确保网页的正确显示和良好的用户体验。在编写HTML页面时，我们需要遵循这些基本结构，并合理使用其他标签和元素，以创建一个优秀的网页。

除了HTML，还有其他的网页开发语言，例如CSS和JavaScript。CSS用于控制网页的样式和布局，JavaScript用于添加交互和动态效果。在实际开发中，我们通常会同时使用这些语言来创建一个完整的网站。

2.Web结构

2.1、浏览器及内核

1.web浏览器是用于读取HTML文件，并将其作为网页显示
2.浏览器最重要的部分或其核心是渲染引擎，我们一般称为内核；
3.内核的作用负责对网页语法的解释并渲染网页；
4.五大浏览器：chrome、safari、Firefox、Opera、IE
1.chrome 谷歌浏览器

生产商：Google
内核：webkit、blink
2.Firefox 火狐浏览器
生产商：Mozilla
内核：gecko
3.Safari 苹果浏览器
生产商：苹果公司
内核：webkit
4.opera 欧朋浏览器
生产商：挪威欧普拉软件公司
内核：presto blink
5.IE 浏览器
生产商：微软公司 Microsoft
内核：trident
其他浏览器：
大部分国产的浏览器（qq浏览器，uc浏览器，猎豹浏览器，360浏览器）基本上是在IE浏览器的内核上进行的二次开发，现在国内市场上有许多双内核的浏览器，使用的是trident,webkit内核.

2.2、页面的三大组成部分

1.结构：给页面搭建基本的框架结构。 html ，类比于建房子的时候要搭的地基跟钢筋。
(1)表现：页面的美化，装饰。 css 相当于给房子加背景和家具的排列布局。
(2)行为：页面的轮播图，返回顶部... javascript 相当于房子加灯的开关。
(3)结构层html和表现层css，是 W3C 制定的规范，万维网联名。
(4)行为层js，是 ECMA 制定的规范，欧洲计算机协会。

秋柴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫入门（DAY 3）解析HTML与web

非贪婪匹配），在访问段的IP地址下进行投递包装好的数据包（简化，实际过程远远比这个复杂，感兴趣可以了解我之前的博客）（注意，是数据包），所以我们看到的最终内容其实是浏览器在站内解析后的内容，这时，大家就明白了，为什么会显示202，或者403，这只是得到了服务器端的状态，我们还需要继续对response进行解析。大部分国产的浏览器（qq浏览器，uc浏览器，猎豹浏览器，360浏览器）基本上是在IE浏览器的内核上进行的二次开发，现在国内市场上有许多双内核的浏览器，使用的是trident,webkit内核.
复制链接

扫一扫

Python爬虫入门（DAY 3）解析HTML与web

“相关推荐”对你有帮助么？