简单介绍爬虫基本流程！

最新推荐文章于 2024-06-19 17:55:34 发布

风~蒲公英

最新推荐文章于 2024-06-19 17:55:34 发布

阅读量3.5k

点赞数 2

分类专栏： nodejs js 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44269229/article/details/88593442

版权

js 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

nodejs

3 篇文章 0 订阅

订阅专栏

简单介绍爬虫基本流程！

首选笼统概括一下其流程：

1. 发起请求
2. 获取响应内容
3. 解析内容
4. 保存数据
下面来具体说下如何爬取：
第一步：
通过http库向目标站点发起请求即（request）；然后等待服务器响应；
第二步：
获取相应内容，
如果能够正常响应那么会得到一个response的内容
在这里我们再一次详细说明一下response里面所包含的具体的内容；
当响应状态
为200时代表成功；
为301时代表跳转；
为404时代表找不到页面；
为502时代表服务器错误；
这个内容的类型可能是HTML，json字符串，二进制数据（图片或者视频）
第三步：
解析内容，
当得到的内容是HTML时，我们可以用正则表达式进行页面解析；
当得到的数据时json时，可以直接转换为json对象解析，
当得到的内容为二进制数据时，我们可以做保存或者进一步的处理；
在这里还有几种解析数据的方法：
如：BeautifulSoup解析处理
：pyQuery解析处理；
：XPath解析处理；
第四步：
保存数据；
我们在保存的过程中可以把这些数据保存到数据库里面，或者保存到特定的格式的文件夹中；
还有一点就是我们在抓取页面数据的时候会出现一个这样的问题：
那就是抓取的页面的数据和浏览器看到的不一样；
那么是什么的情况呢？
原因是很多网站中的数据都是通过js,ajax动态加载的，所以直接通过get请求获取的页面和浏览器显示的不同；

风~蒲公英

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
简单介绍爬虫基本流程！

简单介绍爬虫基本流程！首选笼统概括一下其流程：1. 发起请求2. 获取响应内容3. 解析内容4. 保存数据下面来具体说下如何爬取：第一步：通过http库向目标站点发起请求即（request）；然后等待服务器响应；第二步：获取相应内容，如果能够正常响应那么会得到一个response的内容在这里我们再一次详细说明一下response里面所包含的具体的内容；当响应状态为2...
复制链接

扫一扫

专栏目录