爬取文件
原理:
1.需求分析
猎聘网需要设计简单反爬虫策略,可通过配置请求头、下载延迟、动态用户代理缓解,猎聘网职位搜索列表页和详情页如图所示。
图1 猎聘网职位职位搜索列表页
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210714115951676.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTA0NDM0OQ==,size_16,color_FFFFFF,t_70#pic_center)
图2 猎聘网职位职位搜索详情页
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210714120001918.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTA0NDM0OQ==,size_16,color_FFFFFF,t_70#pic_center)
2.爬虫数据存储设计
对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。
如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑数据合并。
结合需求分析中的数据