相信各位读者多多多少少都听到过“爬虫”这个词汇吧,那各位读者对“爬虫”是怎么理解的呢?是深入了解呢,还是正在学习中呢,还是说只是听过这个词汇呢。当然如果深入了解的话,那这篇文章是适合听过这个词汇的读者们看的,当然想看都欢迎,作者也是在初步学习爬虫当中,不喜勿喷,欢迎交流跟作者交流技术。
那么爬虫究竟是什么呢?当然,你们可以去百度上查,一查自然有一大堆官方的解释。所以我呢,也不去百度扒下来哪些官方的解释,反倒是更喜欢以自己对爬虫的理解来聊聊爬虫。
首先呢,爬虫可以使用多种语言来实现,不过目前公认爬虫最适合的语言是Python,所以我要讲述的也会跟Python有关。
爬虫,用官方的文字来解释就是网络蜘蛛,也就是模拟人去操作浏览器,也就是向浏览器发送请求,浏览器返回数据我们需要的数据给我们。
爬虫能获取到什么数据呢?所见即可爬,也就是网页上看的见的数据90%都可以爬,当然看不见的数据则不可爬。
爬虫可以爬取文字,图片,视频,动图,音频等等,但前提是得看的到,像那些需要vip权限的,爬虫不在入侵别人的服务器的情况下是爬取不到的。当然入侵别人服务器是违反行为,恶意爬取别人的网站来进行盈利也是违反行为,最好政府的网站碰都不要碰。
爬虫只能爬http或者https协议的内容。
爬虫是用第三方库来实现的,当然第三库有很多,这得看自己的需求去学习和使用。比较常见的pc端的库有:requests库,selenium自动化测试库等,手机端app的库有:appium库,AirText自动化测试库,Fiddler软件等 可以直接在同电脑一个网络下或者使用USB连接或者配合模拟器来使用。
爬虫的作用?当然对于个体用户来说,作用不大,因为要下载一些文字或者图片现在网页上能提供直接下载,但是爬虫能批量下载,也就是说不需要用户一个一个繁琐的用手点击,而是使用爬虫自动点击,从而解放双手。