对于绝大多数想要学习Python的朋友而言,爬虫绝对是学习Python的最好的骑手和入门方式。
我当时选择Python学习,也是瞄准了Python爬虫,因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功。
一、正确认识Python爬虫
Python爬虫?为什么会叫爬虫?我第一次听到这个名字的时候也是蛮疑惑的。
从字面上理解的话,爬虫就是一只只虫子在爬来爬去,所以就叫爬虫?
简单来讲,爬虫就像是一个探测机器,它的基本操作就是模拟人的行为去各个网站转悠,点点按钮,查查数据,然后再把看到的信息带回来。
其实也就是很像上文提到的一只只虫子在爬来爬去,所以Python爬虫这个名字还是比较形象的。
文末领取Python全套最新学习资源
二、了解爬虫的本质
爬虫的本质其实就是模拟浏览器打开网页,获取网页中我们想要的那部分数据。
浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果。
所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。
想要学习Python爬虫,先要解决以下四个问题: