爬虫准备知识-html相关知识

最新推荐文章于 2024-10-05 15:23:36 发布

youlansijin

最新推荐文章于 2024-10-05 15:23:36 发布

阅读量184

点赞数 1

分类专栏： Python 文章标签： css python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youlansijin/article/details/109398923

版权

本文作为从Python小白到大神150天转变的第二阶段，重点介绍了爬虫准备工作，包括HTML的基本结构和标签，CSS的样式与布局，以及不同类型的样式表。了解这些知识对于网页数据的获取和解析至关重要。

摘要由CSDN通过智能技术生成

记录学习的点点滴滴-150天从python小白到大神的转变(爬虫准备知识)

从10月26日开始，正式进入了第二阶段的学习。整个阶段主要学习的知识是爬虫相关知识。爬虫这一部分包含三个板块：一是获取数据，二是数据解析，三是保存数据。

获取到的数据可能是网站源代码，也有可能获取不了网络源代码，这种情况就只能找数据接口。获取到的数据，可能会用前端的相关代码显示，也有可能是用json数据格式显示的。主要用到的工具是python的第三方库requests或者selenium。

数据解析模块主要用到的工具包括re模块中json相关知识以及bs4,pyQuery,lxml等。

数据保存这一部分学习的是如何将解析出来的数据保存成csv格式。之后还会学习如何将解析出来的数据保存到数据库中。

前端准备知识

一个网页页面的构成

一个网页包含三个内容，一是HTML超文本标记语言，负责实现网页的内容。二是css，负责实现网页的样式和布局。三是javascript， java脚本，负责实现网页的动态效果。一个包含html基本语法的页面，包含head和body两部分。
HTML常见的标签

标签分类

HTML标签分为单标签和双标签。每种标签都有自己固定的格式，也有自己固定的属性。

单标签：<标签名属性名1=属性值1 属性名2=属性值2 属性名3=属性值3…>

<标签名属性名1=属性值1 属性名2=属性值2 属性名3=属

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。