爬虫:从入门到入狱(一)——概念篇

什么是爬虫?

相信大家久闻大名,但是一直不知道具体是什么,那我们下面就下一个定义!

网络爬虫技术:

通过编写程序,模拟浏览器上网,然后让程序自动在互联网上按照设置的规则抓取数据的技术

爬虫的价值:

可以抓取大量互联网的有用数据,为我所用,再利用数据分析,产生商业化或产品化的价值 

就业角度:

爬虫工程师随着大数据时代的来临,薪资高且人员缺口大 

爬虫的合法性论证 

爬虫技术是一种工具,具有中立性,所以在法律中是不被禁止的

具有违法风险的行为是不合法的

所以爬虫分为:善意爬虫和恶意爬虫

恶意爬虫:

1.爬虫干扰了被访问网站的正常运营

2.爬取了受到法律保护的数据的行为

瞎搞容易进“橘子”!!!!

注意随时去优化自己的代码或者是逻辑,避免随着网站更新而干扰了网站的运行

请及时审查自己爬取的数据,如果数据违规(隐私,商业敏感或者其他不能说的东西),一定要删除!!!

爬虫在使用场景中的分类
    - 通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
    - 聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
    - 增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

有爬虫肯定有爬虫反制机制吧!

门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取

 当然,道高一尺魔高一丈,还有反 反爬技术,哈哈哈(总是在不断较量)

反反爬策略:
    爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值