python数据获取——爬虫

1. HTML简介

2.json和Xpath简介

3.Scrapy库的介绍

4.静态页面的数据获取

5.动态页面的数据获取


1.HTML简介

网页文件本身是一种文文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。

 

 常用的标签:

h1 表示标题1 h2变小

<p><b>对齐(加上属性可以居中对齐)<b>表示加黑

<br>标签表示换行{文本文件中加回车没有用必须要用br回车换行}

<pre>定义预格式化的文本(不用写br,可以识别到换行和空格)

<li>定义列表中的序列,有序,加参数可以调整从哪开始

<a href>超链接,文字会显示出来,点击里面连接会跳转到某个网页

</font>定义字体

<img......>图片,可以设置高度宽度

<table border = 3>标签表格,边框的宽度等于3

<tr>表格一行一行显示,<th>指示列的内容,每一列都可以精确的调整的长度(对于长度不确定的文本,数字采用向右对齐最后一个对齐)把对齐属性放到tr上,这样就需要一行一列设置

<div> 元素经常与 CSS 一起使用,用来布局网页


3.scrary库

是一个功能非常强大的爬虫框架,异步处理框架,自动根据设定好的流程,保存到数据库中或者文件中

 对response进行解析,项目管道作用,从爬虫获取到的数据,对数据进行下一步加工

在pycharm中直接setting

新建项目--确定目标--制作爬虫--存储内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值