Python入门:什么是爬虫,怎么玩爬虫?

python爬虫入门:什么是爬虫,怎么玩爬虫?

图片

看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有…

不好意思

跑题了…

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

今天,我们正式从0到1,轻松学会 python 爬虫

接下来…

将是学习Python的正确姿势!

小帅b闪亮登场

图片

在你的浏览器里面,输入百度网址

https://www.baidu.com

一回车看到一个网页

图片

大家都很熟悉吧!然而你右键,查看网页源代码。

是这个样子的 👇

在这里插入图片描述

(源代码的1/100)

“窝里割草”

简简单单一个页面,这么多密密麻麻的代码

不说了,劝退前端程序员!

还是学习 Python 吧,哈哈哈

图片

那么说这个,和爬虫有什么关系呢?

你有没有想过 这些许许多多的网站 背后都是一些数据

如果我们可以用 一个自动化的程序

轻轻松松就能把它们给爬取下来 是不是很爽?

比如,一些小电影的网站 我们只要用 Python 写几行代码然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如,你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后,对这些数据做一些分析呢?

等等…

这些,以后我们都会讲到!

我们刚刚提到的一个自动化的程序就是 爬虫

图片

知道了什么是爬虫之后

问题来了 👉 爬虫怎么玩的?

那就偷偷告诉你

图片

在互联网上许许多多的网站,它们都是托管在服务器上的,这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以,我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求,就直接返回数据给爬虫了

图片

当然了,有一些网站比较精明,所以他们会建立一些反爬虫机制

但是,对于我们来说,不在话下,这个是后话了!

反正这个时候呢,服务器把数据返回给我们了,那么我们就可以对这些数据进行猥琐操作了。

图片

不同的情况下,服务器返回给我们的数据格式不一样有:HTML,JSON,二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行处理。

处理完之后,我们就可以对他们进行保存啦

保存的方式也有几种:数据库,硬盘,等等…

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值