简单介绍爬虫基本流程!

3 篇文章 0 订阅

简单介绍爬虫基本流程!

首选笼统概括一下其流程:

1. 发起请求
2. 获取响应内容
3. 解析内容
4. 保存数据

下面来具体说下如何爬取:
第一步:
通过http库向目标站点发起请求即(request);然后等待服务器响应;
第二步:
获取相应内容,
如果能够正常响应那么会得到一个response的内容
在这里我们再一次详细说明一下response里面所包含的具体的内容;
当响应状态
为200时代表成功;
为301时代表跳转;
为404时代表找不到页面;
为502时代表服务器错误;

这个内容的类型可能是HTML,json字符串,二进制数据(图片或者视频)
第三步:
解析内容,
当得到的内容是HTML时,我们可以用正则表达式进行页面解析;
当得到的数据时json时,可以直接转换为json对象解析,
当得到的内容为二进制数据时,我们可以做保存或者进一步的处理;
在这里还有几种解析数据的方法:
如:BeautifulSoup解析处理
:pyQuery解析处理;
:XPath解析处理;

第四步:
保存数据;
我们在保存的过程中可以把这些数据保存到数据库里面,或者保存到特定的格式的文件夹中;
还有一点就是我们在抓取页面数据的时候会出现一个这样的问题:
那就是抓取的页面的数据和浏览器看到的不一样;
那么是什么的情况呢?

原因是很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同;

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值