一 前言
学习目标,是希望你能掌握如下一些可以写在简历上的技能。
- 熟练使用Python语言
- 掌握网络数据采集技术,熟练使用爬虫工具urllib、requests、xpath、beautifulsoup、re、selenium、aiohttp、scrapy以及scrapy-redis分布式爬虫框架等
- 熟悉网页语言html及javascripts,掌握json格式数据处理方法,拥有一定反爬经验积累,理解并熟练掌握各种反爬技巧(UA,IP代理,模拟登录,动态页面,验证码等)
- 了解手机app爬虫,掌握Fiddler抓包工具以及Airtest自动化测试框架的使用,安卓逆向
- 熟悉掌握数据存储技能MongoDB,MySQL,并配合Python使用,实现数据采集入库
- 熟悉多进程多线程异步,提高爬虫效率
- 熟悉scrapy+scrapyd+gerapy实现可视化爬虫程序调度
- 熟悉celery与apsheduler框架,实现定时更新
此教程大纲可以参考我之前的一篇文章。
二 什么是爬虫
是一种按照一定的规则,自动地抓取