python爬虫入门:什么是爬虫,怎么玩爬虫?
看到这两只爬虫没有?
两只爬虫
两只爬虫
跑得快
跑得快
一只没有…
不好意思
跑题了…
别误会,今天不是要教你怎么玩上面这两只沙雕玩意。
今天,我们正式从0到1,轻松学会 python 爬虫
接下来…
将是学习Python的正确姿势!
小帅b闪亮登场
在你的浏览器里面,输入百度网址
https://www.baidu.com
一回车看到一个网页
大家都很熟悉吧!然而你右键,查看网页源代码。
是这个样子的 👇
(源代码的1/100)
“窝里割草”
简简单单一个页面,这么多密密麻麻的代码
不说了,劝退前端程序员!
还是学习 Python 吧,哈哈哈
那么说这个,和爬虫有什么关系呢?
你有没有想过 这些许许多多的网站 背后都是一些数据
如果我们可以用 一个自动化的程序
轻轻松松就能把它们给爬取下来 是不是很爽?
比如,一些小电影的网站 我们只要用 Python 写几行代码然后一运行
这个程序就帮我们爬取所有的小电影到我们本地
完全不需要我们费一点力气
再比如,你想了解一个行业的趋势
是不是可以把它们往年的数据都爬取下来
然后,对这些数据做一些分析呢?
等等…
这些,以后我们都会讲到!
我们刚刚提到的一个自动化的程序就是 爬虫
知道了什么是爬虫之后
问题来了 👉 爬虫怎么玩的?
那就偷偷告诉你
在互联网上许许多多的网站,它们都是托管在服务器上的,这些服务器 24 小时运行着
时时刻刻,兢兢业业的等待着别人的请求
所以,我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样
爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)
大多数的服务器呢,傻不拉的以为是浏览器发送请求,就直接返回数据给爬虫了
当然了,有一些网站比较精明,所以他们会建立一些反爬虫机制
但是,对于我们来说,不在话下,这个是后话了!
反正这个时候呢,服务器把数据返回给我们了,那么我们就可以对这些数据进行猥琐操作了。
不同的情况下,服务器返回给我们的数据格式不一样有:HTML,JSON,二进制的数据啦
根据不同的情况,我们可以使用不同的方式对他们进行处理。
处理完之后,我们就可以对他们进行保存啦
保存的方式也有几种:数据库,硬盘,等等…
以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。