Python爬虫最细教学系列第一章——关于爬虫【操作步骤多图预警，建议收藏】

最新推荐文章于 2024-08-07 08:19:34 发布

华枝歌

最新推荐文章于 2024-08-07 08:19:34 发布

阅读量842

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45983489/article/details/120754172

版权

本文介绍了Python爬虫的基本概念、合法性和反爬策略，详细讲解了requests模块的使用，包括安装、网页内容搜索和网页翻译查询。还分享了爬取豆瓣电影榜单的示例代码，适合初学者入门。

摘要由CSDN通过智能技术生成

嗨，你好啊，初次见面，下面这些学习资料作见面礼送你，要一个关注不过分吧~，还想学什么留言或者悄悄跟我私信,咱们细细道来

百本图灵计算机经典系列书籍全送了👇祝你学途永无止境，历经千帆，归来年薪百万！
链接：https://pan.baidu.com/s/1mDGCIgH1s7dSD1uZ6Pml1Q
提取码：hvr0

b站爬取的最热门学习资源整理合集送了👇祝你成功！
链接：https://pan.baidu.com/s/184suePB-CJEbpAVWqpWIrg
提取码：0emq

数学建模资料，包含数学建模入门与进阶，数学建模经典算法，近10年优秀得奖论文，祝您旗开得胜！
链接：https://pan.baidu.com/s/1HZlnNDeYgu5-EZOxgrzECQ
提取码：svyg

爬虫概念

什么是爬虫？

简单说就是把网上的东西下载在自己设备上。把网上不能下载，不方便下载的东西通过技术手段下载下来。

爬虫是否合法？

爬虫在法律上是不被禁止的，但这不代表可以为所欲为。在进行爬虫时，应该安分守己，谨记做个遵纪守法的好公民。避免爬取隐私数据，在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播。

是否可以反爬虫？

反爬虫就是通过技术手段防止被爬虫程序爬取到内容。不过既然是技术手段，就依然可以破解，所以反爬虫也是可以通过技术手段破解的，也就是反反爬虫，那既然如此，也就可以反反反爬虫，也就可以反反反反爬虫…哈哈哈哈哈哈哈哈哈无聊！

上面开启无限套娃了，怎么破？用君子协议。

robots.txt协议：君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取
哪些数据不可以被爬取。

望文生义，既然是君子协议，就只对君子有效。君子协议的意义就在于运营者明确跟你说这里面的东西不方便被外人看到，希望你可以不要偷看这里面的东西。建议我们每个人都是君子。

举个例子:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
既然是君子协议呢，咱么就要谨守道德，不去触碰别人君子协议里的东西，做一个安安静静的君子。

程序运行环境

python 3.8
Pycharm

有条件的或者厉害的人可以使用其他更厉害的工具。

关于软件的安装过程，网上已经有讲解足够清晰的资源，此处不再赘述。

举个爬虫小例子

这里我们要使用到Python的urllib库，这是Python内置的一个库，下载号python后直接使用即可不需要额外安装。

我们可以使用 urllib.request 的 urlopen 方法来打开一个 URL，然后使用 read() 函数获取网页的 HTML 实体代码。如下👇

from urllib.request import urlopen

url_content=urlopen(("http://www.baidu.com"))#打开百度

print(url_content.read().decode("utf-8"))#decode()函数将得内容按指定方式编码