记录学习的点点滴滴-150天从python小白到大神的转变(爬虫准备知识)
从10月26日开始,正式进入了第二阶段的学习。整个阶段主要学习的知识是爬虫相关知识。爬虫这一部分包含三个板块:一是获取数据,二是数据解析,三是保存数据。
获取到的数据可能是网站源代码,也有可能获取不了网络源代码,这种情况就只能找数据接口。获取到的数据,可能会用前端的相关代码显示,也有可能是用json数据格式显示的。主要用到的工具是python的第三方库requests或者selenium。
数据解析模块主要用到的工具包括re模块中json相关知识以及bs4,pyQuery,lxml等。
数据保存这一部分学习的是如何将解析出来的数据保存成csv格式。之后还会学习如何将解析出来的数据保存到数据库中。
前端准备知识
-
一个网页页面的构成
一个网页包含三个内容,一是HTML超文本标记语言,负责实现网页的内容。二是css,负责实现网页的样式和布局。三是javascript, java脚本,负责实现网页的动态效果。一个包含html基本语法的页面,包含head和body两部分。
-
HTML常见的标签
标签分类
HTML标签分为单标签和双标签。每种标签都有自己固定的格式,也有自己固定的属性。
单标签:<标签名 属性名1=属性值1 属性名2=属性值2 属性名3=属性值3…>
<标签名 属性名1=属性值1 属性名2=属性值2 属性名3=属