Python爬虫入门(DAY 3)解析HTML与web

前置问题:如果大家使用requests.get()或requests.post()时,返回值是不是与大家预想的内容一致,我们的预计是返回我们需要的直观内容,比如文本,图片,但是实际上呢?返回值为200(资源存在),或者403(无权限访问),404(没有找到该文件),为什么呢?

9f782a4d53394bcc8d0a81177be41028.jpg
这就要我们去了解浏览器的运行方式。当服务器收到浏览器传来的keyword时,会在站内进行模糊匹配(常见的标志我们后续会提到:.*?非贪婪匹配),在访问段的IP地址下进行投递包装好的数据包(简化,实际过程远远比这个复杂,感兴趣可以了解我之前的博客)(注意,是数据包),所以我们看到的最终内容其实是浏览器在站内解析后的内容,这时,大家就明白了,为什么会显示202,或者403,这只是得到了服务器端的状态,我们还需要继续对response进行解析。
大家使用requests.post().text,输出返回值,得到的内容是网页的HTML码,我们要做的,就是从这些HTML代码中,找到我们需要的内容(这我们之后在讲代码部分时会讲,我们现在主要是建立概念),需要对爬虫的response有一定了解。

 

2ed332aaeb60454f869941ddfe5477d8.jpg

 

一 HTML文档结构(具体了解可以看我之前的博客)

1.1什么是HTML

HTML是 HyperText Mark-up Language 的首字母简写,意思是超文本标记语言。通过HTML标记(标签)对网页中的文本、图片、多媒体等内容进行描述。
说明:
1.“超文本”:不仅能承载简单的文字、还能包含超链接、图片、音频、视频等。
2.“标记语言”:标记语言是由一套标记标签组成的

1.2 HTML结构

1.标签:由尖括号括起来的关键词
2.单标签:<标签名 >或 <标签名 />
3.双标签:<开始标签名>[内容]</结束标签名>
4.元素:标签及内容的整体
5.属性
<标签名 属性名1="属性值1"  属性名2="属性值2"></标签名>
<后面的第一个单词叫做标签的名字,标签名空格之后的叫做标签的属性。
6.属性由属性名和属性值组成,属性名和属性值用等号连接
7.属性值用引号引起来。 多个属性之间用空格隔开。

6567b6877b73482f8d38dceafa9c3e5c.jpeg

 

HTML文档的基本结构由以下四个部分组成:文档类型声明、HTML标签对、head标签对和body标签对。文档类型声明指的是告诉浏览器使用哪种HTML版本来解析页面的声明。在HTML5中,文档类型声明应该写为<!DOCTYPE html>。这个声明告诉浏览器,这个页面是使用HTML5编写的,浏览器应该使用HTML5的规则来解析和渲染页面。

HTML标签对是指HTML页面中的开始标签和结束标签,这些标签将页面的内容分为不同的部分。HTML标签对的格式是<开始标签>内容</结束标签>。其中,开始标签用于标识内容的类型和属性,结束标签用于标识内容的结束位置。例如,<p>标签用于标识段落,<img>标签用于插入图片,<a>标签用于创建链接等。


head标签对是指HTML页面中的<head>标签和</head>标签,这些标签用于包含页面的元数据,例如页面的标题、关键字、描述等。head标签对中的内容不会在页面上显示,但是这些内容对于搜索引擎优化和网页排名非常重要。

body标签对是指HTML页面中的<body>标签和</body>标签,这些标签用于包含页面的主要内容,例如文本、图片、视频等。body标签对中的内容会在页面上显示,是网页的核心部分。


除了这些基本结构,HTML页面还可以包含其他标签和元素,例如表格、表单、列表等。这些元素可以帮助我们更好地组织和呈现网页内容。这些元素的存在是为了确保网页的正确显示和良好的用户体验。在编写HTML页面时,我们需要遵循这些基本结构,并合理使用其他标签和元素,以创建一个优秀的网页。

除了HTML,还有其他的网页开发语言,例如CSS和JavaScript。CSS用于控制网页的样式和布局,JavaScript用于添加交互和动态效果。在实际开发中,我们通常会同时使用这些语言来创建一个完整的网站。


2.Web结构

2.1、浏览器及内核

  1.web浏览器是用于读取HTML文件,并将其作为网页显示
  2.浏览器最重要的部分或其核心是渲染引擎,我们一般称为内核;
  3.内核的作用负责对网页语法的解释并渲染网页 ; 
  4.五大浏览器:chrome、safari、Firefox、Opera、IE  
1.chrome 谷歌浏览器

生产商:Google
内核:webkit、blink
2.Firefox 火狐浏览器
生产商:Mozilla
内核:gecko
3.Safari 苹果浏览器
生产商:苹果公司
内核:webkit
4.opera 欧朋浏览器
生产商:挪威欧普拉软件公司
内核:presto blink
5.IE 浏览器
生产商:微软公司 Microsoft
内核:trident
其他浏览器:
大部分国产的浏览器(qq浏览器,uc浏览器,猎豹浏览器,360浏览器)基本上是在IE浏览器的内核上进行的二次开发,现在国内市场上有许多双内核的浏览器,使用的是trident,webkit内核.

2.2、页面的三大组成部分

1.结构:给页面搭建基本的框架结构。 html ,类比于建房子的时候要搭的地基跟钢筋。
(1)表现:页面的美化,装饰。 css 相当于给房子加背景和家具的排列布局。
(2)行为:页面的轮播图,返回顶部... javascript 相当于房子加灯的开关。
(3)结构层html和表现层css,是 W3C 制定的规范,万维网联名。
(4)行为层js,是 ECMA 制定的规范,欧洲计算机协会。
 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋柴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值