龟速学爬虫笔记②

这一篇笔记主要介绍的是爬虫的原理。

网络爬虫(Web Spider),是一个抓取网页的程序。从技术层面来说,它通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。当通过客户端发出任务需求命令时,爬虫将通过互联网到达终端服务器,从网站某一个页面开始,读取网页的内容,从那里获得网页的源代码,在源代码中提取任务所需的信息,同将将获得的有用信息送回客户端存储,再返回终端服务器那获取网页源代码……循环往复,直到把这个网站所有的网页都抓取完为止。

爬虫会做这两件事:

1.模拟计算机对服务器发起Request请求;

2.接收服务器端的Response内容并解析、提取所需的信息。

爬虫的流程可以被概括为:

  1. 获取网页源代码;

  1. 提取信息:获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。首先,最通用的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库,如 Beautiful Soup、pyquery、lxml 等。使用这些库,我们可以高效快速地从中提取网页信息,如节点的属性、文本值等。

  1. 保存数据:一般会将提取到的数据保存到某处以便后续使用。保存的方式是多样的,可以是txt或json等,也可以是数据库或远程服务器等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜之王。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值