Python爬虫基本流程和实战案例

码农必胜客

已于 2024-01-05 15:51:26 修改

阅读量671

点赞数

分类专栏： Python零基础入门文章标签： python 爬虫开发语言

于 2023-11-18 17:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaolinyui/article/details/134457582

版权

Python零基础入门专栏收录该内容

52 篇文章 21 订阅

订阅专栏

在学习python的过程中，学会获取网站的内容是我们必须要掌握的知识和技能，今天就分享一下爬虫的基本流程，只有了解了过程，我们再慢慢一步步的去掌握它所包含的知识

python怎么爬取数据
文末领取Python全套最新学习资源

Python网络爬虫大概需要以下几个步骤：

一、获取网站的地址

有些网站的网址十分的好获取，显而易见，但是有些网址需要我们在浏览器中经过分析得出

二、获取网站的地址

有些网站的网址十分的好获取，显而易见，但是有些网址需要我们在浏览器中经过分析得出

三、请求 url

主要是为了获取我们所需求的网址的源码，便于我们获取数据

四、获取响应

获取响应是十分重要的，我们只有获取了响应才可以对网站的内容进行提取，必要的时候我们需要通过登录网址来获取cookie 来进行模拟登录操作

五、获取源码中的指定的数据

这就是我们所说的需求的数据内容，一个网址里面的内容多且杂，我们需要将我们需要的信息获取到，我目前主要用到的方法有3个分别是re(正则表达式) xpath 和 bs.4

六、处理数据和使数据美化

当我们将数据获取到了，有些数据会十分的杂乱，有许多必须要的空格和一些标签等，这时我们要将数据中的不需要的东西给去掉

七、保存

最后一步就是将我们所获取的数据进行保存，以便我们进行随时的查阅，一般有文件夹，文本文档，数据库，表格等方式

【解析数据】

是指：我们平时使用浏览器上网，浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子，之后我们才能在网页上做各种操作。而在爬虫中，也要使用能读懂html的工具，才能提取到想要的数据。

【提取数据】

是指：把我们需要的数据从众多数据中挑选出来。

爬虫中用来解析和提取数据的是：Beautiful Soup，Beautiful Soup不是系统的库，是要另外安装的库。

安装Beautiful Soup：在终端输入一行代码运行：pip install BeautifulSoup4

下面上代码。

第一步：解析数据。

第二步：提取数据

提取数据分为两步：find() 和 findall()

下面上练习，如下提取网站中的div

练习1：获取打印第一个div

练习2：获取打印所有的div

以上就是今天的全部内容分享，觉得有用的话欢迎点赞收藏哦！

Python经验分享

学好 Python 不论是用于就业还是做副业赚钱都不错，而且学好Python还能契合未来发展趋势——人工智能、机器学习、深度学习等。
小编是一名Python开发工程师，自己整理了一套最新的Python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。如果你也喜欢编程，想通过学习Python转行、做副业或者提升工作效率，这份【最新全套Python学习资料】一定对你有用！

小编为对Python感兴趣的小伙伴准备了以下籽料！

对于0基础小白入门：

如果你是零基础小白，想快速入门Python是可以考虑培训的！

学习时间相对较短，学习内容更全面更集中
可以找到适合自己的学习方案

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习、Python量化交易等学习教程。带你从零基础系统性的学好Python！

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

最新全套【Python入门到进阶资料 & 实战源码 &安装工具】（安全链接，放心点击）

我已经上传至CSDN官方，如果需要可以扫描下方官方二维码免费获取【保证100%免费】

*今天的分享就到这里，喜欢且对你有所帮助的话，记得点赞关注哦~下回见！

码农必胜客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

码农必胜客 CSDN认证博客专家 CSDN认证企业博客

码龄1年

363: 原创

40万+: 周排名

2万+: 总排名

73万+: 访问

: 等级

1万+: 积分

4734: 粉丝

6781: 获赞

44: 评论

7793: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python淘宝秒杀脚本，详细代码和思路（全平台通用）
weixin_58055477: 也不会打开网页
Python淘宝秒杀脚本，详细代码和思路（全平台通用）
weixin_58055477: 在pycharm中运行后没有反应是为什么
好用到爆！20个Python爬虫工具包分享！
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
Python淘宝秒杀脚本，详细代码和思路（全平台通用）
lejia-joe: 你是否可以尝试隔一段时间刷新一次页面，（隐性等待，显性等待可以帮助你。）定位你要查找的商品元素，检查它是否上架，再进行后续操作
Python淘宝秒杀脚本，详细代码和思路（全平台通用）
2401_86506577: 然后它的上架时间不确定，是在10分钟内随机上架

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。