前言
数据抓取搞了一年多了,不说做的多好,但基本上坑趟了一大堆,准备写一套文章,把这一年经验和教训跟大家分享一下。
废话少说,咱们正式开始。
纲领
本套文章会按照以下顺序来逐步来整理,感兴趣的同学可以自行查看对应的篇章。
一、调度平台
1.1、整体架构
1.2、调度服务
1.3、任务执行服务
1.4、数据清洗服务
1.5、监控服务
1.6、报警服务
二、爬虫相关
2.1、爬虫实现
2.2、Web 站点如何抓取
2.3、App 如何抓取
2.4、小程序如何抓取
2.5、代理相关
2.6、Cookie 相关
2.7、真机
三、其他
3.1、全文检索
3.2、Docker
3.3、生产环境运维
3.4、事故处理
3.5、脚手架
以上。
祝大家变的更强。