爬虫准备知识-html相关知识

本文作为从Python小白到大神150天转变的第二阶段,重点介绍了爬虫准备工作,包括HTML的基本结构和标签,CSS的样式与布局,以及不同类型的样式表。了解这些知识对于网页数据的获取和解析至关重要。
摘要由CSDN通过智能技术生成
记录学习的点点滴滴-150天从python小白到大神的转变(爬虫准备知识)

​ 从10月26日开始,正式进入了第二阶段的学习。整个阶段主要学习的知识是爬虫相关知识。爬虫这一部分包含三个板块:一是获取数据,二是数据解析,三是保存数据。

​ 获取到的数据可能是网站源代码,也有可能获取不了网络源代码,这种情况就只能找数据接口。获取到的数据,可能会用前端的相关代码显示,也有可能是用json数据格式显示的。主要用到的工具是python的第三方库requests或者selenium。

​ 数据解析模块主要用到的工具包括re模块中json相关知识以及bs4,pyQuery,lxml等。

​ 数据保存这一部分学习的是如何将解析出来的数据保存成csv格式。之后还会学习如何将解析出来的数据保存到数据库中。

前端准备知识
  1. 一个网页页面的构成

    一个网页包含三个内容,一是HTML超文本标记语言,负责实现网页的内容。二是css,负责实现网页的样式和布局。三是javascript, java脚本,负责实现网页的动态效果。一个包含html基本语法的页面,包含head和body两部分。

  2. HTML常见的标签

    标签分类

    HTML标签分为单标签和双标签。每种标签都有自己固定的格式,也有自己固定的属性。

    单标签:<标签名 属性名1=属性值1 属性名2=属性值2 属性名3=属性值3…>

    ​ <标签名 属性名1=属性值1 属性名2=属性值2 属性名3=属

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值