python爬虫入门

最新推荐文章于 2024-08-17 12:54:01 发布

擎天小祝

最新推荐文章于 2024-08-17 12:54:01 发布

阅读量588

点赞数

分类专栏： python 爬虫技术文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhu_lizhe/article/details/130095731

版权

python 同时被 3 个专栏收录

5 篇文章 1 订阅

订阅专栏

5 篇文章 2 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

一.什么是爬虫

网络爬虫（Crawler）又称网络蜘蛛，或者网络机器人（Robots）。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫通过程序模拟用户访问网页的过程，解析网页源代码或通过抓包获取网页上所含的文字，图片，视频等资源，并将其保存下来。

二.为什么使用爬虫

爬虫可以高效的批量的获取网页上的信息，创建或维护网页的人一般为了方便与统一，例如网页小说的第一页和第二页，网页源代码中紧紧改变了某几个属性的值，如content，整体源代码的框架并没有改变，因此，我们只要通过分析某一页网页的源代码，并学会如何从其获取信息，那么我们也就等于学会了如何从这一种网页中获取信息，即可通过程序批量获得此种网页上我们所需要的信息。而不用再和之前一样自己去一页一页下载，是真正意义上的一劳永逸。

三.为什么用python

学过python的人都知道，python语法简单，且有非常丰富的第三方库，世界各地的大佬们帮我们把各种函数，类写好封装在库中，我们所需要做的仅仅是学会如何去使用他们。

小规模，数量小，爬去速度不敏感，requests库	中规模，数据规模较大，爬取速度敏感scrapy库	大规模，搜索引擎,爬取速度关键定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

四.一些其他关于爬虫的

（一）Robots协议

网站在反爬方面一般有两种措施，第一种是通过反爬技术手段，例如登录输入验证码，机器人验证等方式，判断你是程序还是真人访问网页以进行反爬，第二种就是通过Robots协议。

Robots协议（也称为爬虫协议、机器人协议等），全称是“网络爬虫排除标准”，一般我们再网站主页面网址后加上/robots.txt即可查看网站的Robots协议（如果没有则说明网站允许对数据进行爬取），Robots协议规定了网站那些内容允许和不允许爬取，允许和不允许某些爬虫爬取等信息，例如淘宝网的Robots协议：

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

说明淘宝网不希望百度的爬虫爬取其信息。

Robots协议是建议但非约束性，简单地来说就是一份君子协议（防君子不防小人），但如果你违反Robots协议，可能会面临一定的法律风险。以下是对是否遵守Robots协议的建议：

访问量小:可以遵守访问量较大：建议遵守	非商业且偶尔:建议遵守商业利益:必须遵守	必须遵守
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

（二）学习爬虫的资源

1.【2022 年】崔庆才 Python3 网络爬虫学习教程 | 静觅崔庆才大佬的博客，写的很详细，另外大佬写的书也很不错；

2.Python爬虫教程（从入门到精通）网站名虽然叫C语言编程网，但里面也有其他语言的教程，很不错的一个网站；

3.镀金的天空-GlidedSky 新手可以练习爬虫的地方，需要注册登陆，进去后可以向闯关一样完成挑战；

4.哔哩哔哩，知乎，CSDN等等较为常见的网站，现在网上关于爬虫的教程越来越多，注意甄别好坏，选择适合自己的。

在接下来的文章中我们正式开始python爬虫的学习。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python爬虫入门

网络爬虫（Crawler）又称网络蜘蛛，或者网络机器人（Robots）。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
复制链接

扫一扫

专栏目录

擎天小祝 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

158万+: 周排名

98万+: 总排名

9326: 访问

: 等级

90: 积分

7: 粉丝

15: 获赞

8: 评论

67: 收藏

私信

关注

热门文章

分类专栏

linux 1篇
GNSS 1篇
c 1篇
技术 5篇
python 5篇
可视化 1篇
导航 2篇
爬虫 2篇

最新评论

一文搞懂导航电文（以Rinex3.04为例）
CBXGNB: 混合的广播星历里面的卫星的时间都是以UTC表示吗？
strf从入门到入土
Gaeluiii.: 请问博主配置成功了吗
python爬虫入门
CSDN-Ada助手: 非常感谢您分享了这篇关于Python爬虫入门的博客！网络爬虫是一个非常有用的工具，可以帮助我们自动地获取网络上的信息，提高我们的工作效率。您的博客内容简洁明了，很容易让初学者入门学习。同时，我想提醒您，网络爬虫也涉及到一些法律和道德方面的问题，我们需要在遵守规则的前提下使用爬虫。另外，如果您想深入了解Python爬虫的更多知识和技能，可以学习相关的库，如Scrapy、BeautifulSoup等。希望您能够继续分享更多有价值的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
把你的程序变成exe
weixin_58612560: 博主好厉害，谢谢你
strf从入门到入土
CSDN-Ada助手: 恭喜您发布了第7篇博客，标题也十分吸引眼球。看到您对于strf的深入探究，我真的很佩服。希望您能够继续保持创作的热情，不断地分享您的见解和经验。对于下一步的创作建议，也许您可以探究一下strf在实际项目中的应用，或者分享一些常见问题的解决方案，让我们更好地了解strf的实用性。感谢您的分享，期待更多精彩的博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。