爬虫beautiful soup，xpath，scrapy从简单的开始学，都学了好还是只学最难的好?

苏卡不列-python

于 2023-08-26 15:07:32 发布

阅读量116

点赞数 1

文章标签：爬虫 scrapy 人工智能开发语言学习开发工具 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_67991858/article/details/132511753

版权

BeautifulSoup是用于网页解析的包，XPATH是网页的一种选取方法，scapy是分布式异步爬虫框架。这三个是不同的方面，都得学。

个人建议：

1、从request包开始学起，这是常用的网页请求包，上手很简单的，找个自己感兴趣的小说或者图片站，尝试自己写个简单的抓取工具。使用过程中可以了解网页请求方法、请求头、响应头、代理、Cookies等相关的概念，静态网站和动态加载网页的区别，抓取内容的保存和处理。

2、学习下HTML的基本知识，网页获取到了，如何在网页上定位到所需要的内容，就需要用到 XPATH （lxml包）选取方法和 re 正则表达式，前者可以定位到你需要的网页内容，后者可以快速提取和筛选内容。也可以了解下CSS选择方法或者使用 BeautifulSoup来解析网页，不过建议还是XPATH比较好用。（如果正则表达式用得很顺，就没有其它包的事了）

3、学习 pymysql，pyredis等相关的数据库组件，以及文本和图片保存处理方法，抓下来的东西总得保存起来吧。mysql是常用的数据库， redis是常用的缓存数据库。另外也可以学习下pillow，可以很方便地对图片进行处理，比如缩放、改格式、转b64等。

4、了解一些JS的基本概念，最好能看懂JS的代码，或者学习phantomjs，splash，很多网站都使用了JS脚本做动态加载的。不管是requests还是scrapy，都不提供JS功能，必须用其它包才能获得js加载的内容。顺便可以了解下无头浏览器和自动化脚本的使用。

5、学习threading多线程开发或者异步开发，抓取小网站的时候，速度会飞起。

6、scrapy，如果工作有需要，可以看一下，requests用好了，scrapy顶多两三天就会用了。

写得虽然很多，但其实都很简单的，不难，就是东西杂了点。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步！！

上面这份完整版的Python全套学习资料已经上传至CSDN官方，朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

苏卡不列-python

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫beautiful soup，xpath，scrapy从简单的开始学，都学了好还是只学最难的好?

网页获取到了，如何在网页上定位到所需要的内容，就需要用到 XPATH （lxml包）选取方法和 re 正则表达式，前者可以定位到你需要的网页内容，后者可以快速提取和筛选内容。开始学起，这是常用的网页请求包，上手很简单的，找个自己感兴趣的小说或者图片站，尝试自己写个简单的抓取工具。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。写得虽然很多，但其实都很简单的，不难，就是东西杂了点。这三个是不同的方面，都得学。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。