龟速学爬虫笔记②

最新推荐文章于 2024-07-19 15:44:38 发布

夜之王。

最新推荐文章于 2024-07-19 15:44:38 发布

阅读量173

点赞数

分类专栏：网络安全文章标签：爬虫 python 网络安全大数据 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52034407/article/details/129413448

版权

网络安全专栏收录该内容

28 篇文章 4 订阅

订阅专栏

这一篇笔记主要介绍的是爬虫的原理。

网络爬虫(Web Spider),是一个抓取网页的程序。从技术层面来说，它通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。当通过客户端发出任务需求命令时，爬虫将通过互联网到达终端服务器，从网站某一个页面开始，读取网页的内容，从那里获得网页的源代码，在源代码中提取任务所需的信息，同将将获得的有用信息送回客户端存储，再返回终端服务器那获取网页源代码……循环往复，直到把这个网站所有的网页都抓取完为止。

爬虫会做这两件事：

1.模拟计算机对服务器发起Request请求;

2.接收服务器端的Response内容并解析、提取所需的信息。

爬虫的流程可以被概括为：

获取网页源代码；

提取信息：获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。首先，最通用的方法便是采用正则表达式提取，这是一个万能的方法，但是在构造正则表达式时比较复杂且容易出错。由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库，如 Beautiful Soup、pyquery、lxml 等。使用这些库，我们可以高效快速地从中提取网页信息，如节点的属性、文本值等。

保存数据：一般会将提取到的数据保存到某处以便后续使用。保存的方式是多样的，可以是txt或json等，也可以是数据库或远程服务器等等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
龟速学爬虫笔记②

简单介绍了爬虫的原理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

夜之王。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。