爬虫概述和基本原理

最新推荐文章于 2023-06-15 16:21:45 发布

贾维斯Echo

最新推荐文章于 2023-06-15 16:21:45 发布

阅读量532

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44621343/article/details/117092387

版权

爬虫专栏收录该内容

10 篇文章 2 订阅

订阅专栏

本文介绍了爬虫的基本概念，包括互联网的构成、爬虫的作用和合法性。强调了Python作为爬虫语言的便利性，并指出爬虫需要遵循的道德和法规。爬虫流程包括发起请求、获取响应、解析内容和保存数据。文中还探讨了HTTP请求与响应，详细解释了请求方式、URL、请求头和响应状态等。爬虫工具和框架如requests、BeautifulSoup和Scrapy也被提及。

摘要由CSDN通过智能技术生成

01.爬虫概述和基本原理

温馨提示：

爬虫爬得欢，监狱要坐穿；
数据玩的溜，牢饭吃个够； —横批：国家管饭

一、爬虫概述

1.引入

不知道各位是否遇到过这样的需求. 就是我们总是希望能够保存互联⽹上的⼀些重要的数据信息为⼰所⽤.

⽐如,

在浏览到⼀些优秀的让⼈⾎脉喷张的图⽚时. 总想保存起来留为⽇后做桌⾯上的壁纸
在浏览到⼀些重要的数据时(各⾏各业), 希望保留下来⽇后为⾃⼰进⾏各种销售⾏为增光添彩
在浏览到⼀些奇奇怪怪的劲爆视频时, 希望保存在硬盘⾥供⽇后慢慢品鉴
在浏览到⼀些⼗分优秀的歌声曲⽬时, 希望保存下来供我们在烦闷的⽣活中增添⼀份精彩

2.互联网介绍

2.1 什么是互联网？

互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。

2.2 互联网建立的目的？

互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的
而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿U盘去别人的计算机上拷贝数据了。

3.什么是上网？爬虫要做的是什么？

我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。

只不过，用户获取网络数据的方式是：

浏览器提交请求->下载网页代码->解析/渲染成页面。

而爬虫程序要做的就是：

模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中

用户获取网络数据的方式与爬虫程序的区别是：

我们的爬虫程序只提取网页代码中对我们有用的数据

4.爬⾍和Python

爬⾍⼀定要⽤Python么? ⾮也~ ⽤Java也⾏, C也可以. 请各位记住,编程语⾔只是⼯具. 抓到数据是你的⽬的. ⽤什么⼯具去达到你的⽬的都是可以的. 和吃饭⼀样, 可以⽤叉⼦也可以⽤筷⼦, 最终的结果都是你能吃到饭. 那为什么⼤多数⼈喜欢⽤Python呢? 答案: 因为Python写爬⾍简单. 不理解? 问: 为什么吃⽶饭不⽤⼑叉? ⽤筷⼦?因为简单! 好⽤!

⽽Python是众多编程语⾔中, ⼩⽩上⼿最快, 语法最简单. 更重要的是, 这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库. 说直⽩点⼉. 就是你⽤筷⼦吃饭, 我还附送你⼀个佣⼈. 帮你吃! 这样吃的是不是更爽了. 更容易了~

5.爬⾍合法么?

⾸先, 爬⾍在法律上是不被禁⽌的. 也就是说法律是允许爬⾍存在的.

但是, 爬⾍也具有违法⻛险的. 就像菜⼑⼀样, 法律是允许菜⼑的存在的. 但是你要是⽤来砍⼈, 那对不起. 没⼈惯着你. 就像王欣说过的,技术是⽆罪的. 主要看你⽤它来⼲嘛. ⽐⽅说有些⼈就利⽤爬⾍+⼀些⿊客技术每秒钟对着bilibili撸上⼗万⼋千次. 那这个肯定是不被允许的.爬⾍分为善意的爬⾍和恶意的爬⾍

善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)综上, 为了避免进!我们还是要安分守⼰. 时常优化⾃⼰的爬⾍程序，避免⼲扰到⽹站的正常运⾏. 并且在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播