爬虫第二步:解析数据(1)

HTML基础

1.什么是HTML?

HTML是用来描述网页构成的一种语言,
全称为:Hyper Text Markup Language
也叫做超文本标记语言
标记语言内容主要包括:文本及格式(大小、颜色、位置)

右击网页【查看源代码】或按CTRL+U可以查看当前网页的源码

由于使用爬虫访问资源,需要我们替代浏览器来解析网页内容,因此能够读懂和简单修改网页编写的常用语言HTML是必要的技能。
这里介绍一个HTML自学网站:
https://www.w3school.com.cn/html/index.asp

2.HTML的构成

HTML一般由三部分所构成:标签、元素、属性,同时HTML语言和python一样是有缩进的,用于表现代码之间的层级关系。

  • < head> < /head> 用来放头部元素:设置网页编码、添加网页标签小LOGO、小标题、外部文件引用等。
  • < body>< /body>

2.1标签

标签会成对出现,都带有尖括号<> 和 </>,分别代表着该元素的开始和结束,标签中间的内容则是元素。常用标签如下:

标签作用
< html>定义html文档
< head>定义文档头部
< body>定义文档主体
< a>定义超链接
< audio>定义音频
< button>定义按钮
< div>定义块区域
< h1> ,< h2>定义标题
< p>定义段落
< img>定义图片
< ol>定义有序列表
< ul>定义无序列表
< li>定义单个列表条目

2.2元素

元素是指网页展现的主体内容,即从开始标签到结束标签内的所有内容

2.3属性

属性可以写在标签里,属性提供了元素的的更多信息,如颜色、位置、大小等。属性总是以【名称/值对】的形式出现,如:name = “value”

常用的HTML属性用法:

  • 在文档头部使用< style>< /style>统一定义一个标签的格式,
    后续只需直接使用即可。
<head>
    <meta charset="UTF-8">
	<style>
	        /*规定h1的具体样式*/
	        h3 {
	            font-weight: bold;/*控制元素字体粗细*/
	            text-align: center;/*控制元素对齐方式*/
	            letter-spacing: 2px;/*控制元素对齐方式*/
	        }
	</style>
</head>

<body>
    <h3>h1格式的内容</h3>
</body>
  • 使用class属性给元素添加类名。相同类名的元素格式相同
<head>
    <meta charset="UTF-8">
	<style>
	        /*定义class属性为style1的格式*/
		.style1{
			width:100th;
		}
	        /*定义class属性为style2的格式*/		
		.style2{
			width:70th;
		}
	</style>
</head>

<body>
    <img class='style1' src='xxxxx.png'>
    <img class='style2' src='XXXXX.png'>
</body>

id 属性:整个文档独一无二的标识
在< style>标签中定义class属性的样式用点 .,id属性用井号键#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值