01-爬虫概述-爬虫到底是什么?

爬⾍概述

什么是爬虫?

不知道各位是否遇到过这样的需求. 就是我们总是希望能够保存互联⽹上的⼀些重要的数据信息为己所用

⽐如:

  1. 在浏览到⼀些优秀的让⼈⾎脉喷张的图⽚时. 总想保存起来留为 ⽇后做桌⾯上的壁纸
  2. 在浏览到⼀些重要的数据时(各⾏各业),希望保留下来⽇后为⾃⼰进⾏各种销售⾏为增光添彩
  3. 在浏览到⼀些奇奇怪怪的劲爆视频时, 希望保存在硬盘⾥供⽇后慢慢品鉴
  4. 在浏览到⼀些⼗分优秀的歌声曲⽬时, 希望保存下来供我们在烦 闷的⽣活中增添⼀份精彩

那么恭喜你 ! 本教程将十分的适合于你. 因为爬⾍就是通过编写程序来爬取互联⽹上的优秀资源(图⽚, ⾳频, 视频…等等数据)

爬⾍ 和 Python

爬⾍⼀定要⽤Python么? 那肯定不是啦~ ⽤Java也⾏, PHP也行, 甚至C也可以.
请各位记住, 编程语⾔只是⼯具 , 抓到数据是你的⽬的 , ⽤什么⼯具去达到⽬的都是可以的.
和吃饭⼀样, 可以⽤叉⼦也可以⽤筷⼦, 最终的结果都是你能吃到饭.

那为什么⼤多数⼈喜欢⽤Python呢?
答案: 因为Python写爬⾍简单. 不理解?
问: 为什么吃⽶饭不⽤⼑叉? ⽤筷⼦? 因为简单! 好⽤! ⽽Python是众多编程语⾔中, ⼩⽩上⼿最快, 语法最简单. 更重要的是, 这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库. 说直⽩点⼉. 就是你⽤筷⼦吃饭, 我还附送你⼀个佣⼈. 给为你吃! 这样吃的是不是更爽了. 更容易了~

爬⾍合法么?

⾸先, 爬⾍在法律上是不被禁⽌的. 也就是说法律是允许爬⾍存在的.
但是, 爬⾍也具有违法⻛险的. 就像菜⼑⼀样, 法律是允许菜⼑的存在的. 但是你要是⽤来砍⼈, 那对不起. 没⼈惯着你. 就像王欣说过的, 技术是⽆罪的,主要看你⽤它来⼲嘛. ⽐⽅说有些⼈就利⽤爬⾍+⼀些⿊客技术每秒钟对着bilibili撸上⼗万⼋千次. 那这个肯定是不被允许的.

爬⾍分为善意的爬⾍和恶意的爬⾍
善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)
恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)

综上, 为了避免进去!
我们还是要安分守⼰. 时常优化⾃⼰的爬⾍程序避免⼲扰到⽹站的正常运⾏.
并且在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播

爬虫的矛与盾

  1. 反爬机制 : 门户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌爬⾍程序进⾏⽹站数据的爬取。
  2. 反反爬策略 : 爬⾍程序可以通过制定相关的策略或者技术⼿段,破解⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数据。
  3. robots.txt协议君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取哪些数据不可以被爬取。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值