python爬虫如何深入学习?记住这些你也可成为‘‘大神’‘

首先要自己会写代码。

 

学习爬虫可以从下面一些知识点入手学习。

1、http相关知识。

2、浏览器拦截、抓包。

3、python2 中编码知识,python3 中bytes 和str类型转换。

4、抓取javascript 动态生成的内容。

4、模拟post、get,header等

5、cookie处理,登录。

6、代理访问。

7、多线程访问、python 3 asyncio 异步。

8、正则表达式、xpath等

还有scrapy requests等第三方库的使用。

主讲python爬虫 python基础 数据分析 挖掘等

如果爬取的是信息,文本之类的,几点比较基本的,但是可能会很有用,别人也不轻易告诉你的小提示,以下不分先后,想到什么说什么。

0. 源网站能爬api的爬api,不能爬api的爬页面,实在实在不行还有phantomjs和selenium。。。(误,初学者可以先放弃了)

1. 用requests库去处理http请求,不要用urllib urllib2

2. 你的爬取脚本和解析脚本要分开,爬取脚本只爬取内容(raw html),

3. 能利用多线程的地方使用多线程,有时候用gevent什么的打个补丁也可以接受。

4. 解析的时候正则表达式分段落。把要爬取的东西分成大块,尽量先用字符串解析的方法把需要的提取出来,再通过正则匹配段落。这样可维护性比直接写一个特别长的正则要高。

5. 正则不能用来解析html,这里有一个stackoverflow上的经典回答 html - RegEx match open tags except XHTML self-contained tags。 不过你会需要beautifulsoup。

6. 解析出来的数据妥善存好,但记得一定要保存raw html!你会需要它们的。

7. 爬取往往不是一次性的事,所以做爬虫的时候要考虑你会经常用你的脚本和改它,代码别太杂乱无章。

8. 做好异常处理,熟悉各种http状态,知道什么爬虫时候应该挂掉。不要傻乎乎做了一堆无用请求。

9. 做好被封ip/ua/fingerprint/等等。。的准备。。。

10. 不要用自己上班公司的业务相关的机器爬竞争对手的内容!

Python经验分享

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

Python学习路线

这里把Python常用的技术点做了整理,有各个领域的知识点汇总,可以按照上面的知识点找对应的学习资源。
在这里插入图片描述

学习软件

Python常用的开发软件,会给大家节省很多时间。
在这里插入图片描述

学习视频

编程学习一定要多多看视频,书籍和视频结合起来学习才能事半功倍。
在这里插入图片描述

100道练习题

在这里插入图片描述

实战案例

光学理论是没用的,学习编程切忌纸上谈兵,一定要动手实操,将自己学到的知识运用到实际当中。
在这里插入图片描述
最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值