1. HTML简介
2.json和Xpath简介
3.Scrapy库的介绍
4.静态页面的数据获取
5.动态页面的数据获取
1.HTML简介
网页文件本身是一种文文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。
常用的标签:
h1 表示标题1 h2变小
<p><b>对齐(加上属性可以居中对齐)<b>表示加黑
<br>标签表示换行{文本文件中加回车没有用必须要用br回车换行}
<pre>定义预格式化的文本(不用写br,可以识别到换行和空格)
<li>定义列表中的序列,有序,加参数可以调整从哪开始
<a href>超链接,文字会显示出来,点击里面连接会跳转到某个网页
</font>定义字体
<img......>图片,可以设置高度宽度
<table border = 3>标签表格,边框的宽度等于3
<tr>表格一行一行显示,<th>指示列的内容,每一列都可以精确的调整的长度(对于长度不确定的文本,数字采用向右对齐最后一个对齐)把对齐属性放到tr上,这样就需要一行一列设置
<div> 元素经常与 CSS 一起使用,用来布局网页
3.scrary库
是一个功能非常强大的爬虫框架,异步处理框架,自动根据设定好的流程,保存到数据库中或者文件中
对response进行解析,项目管道作用,从爬虫获取到的数据,对数据进行下一步加工
在pycharm中直接setting
新建项目--确定目标--制作爬虫--存储内容