原理
1、分析
智联招聘网是招聘网站中爬取难度最高的网站。为了减轻爬虫对网站运营的影响,要求用户必须注册登录,否则提示登录后才能进行信息检索。
智联招聘网的页面布局以及列表页请求url。注册登录后,职位搜索列表页和详情页如图1、图2所示。
图1 智联招聘网职位搜索列表页
图2智联招聘网职位搜索详情页
2.爬虫数据存储设计
对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。
如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑数据合并。
结合需求分析中的数据分析目标,分析前程无忧、猎聘网、智联招聘三个招聘网站的岗位的数据,确定数据采集项。利用数据库中的表结构设计形式进行展示每个数据项的含义及作用。
最后进行数据库设计,在mysql数据库实现表的创建。
内容:
1.分析招聘网站每条招聘信息的内容,确定爬虫数据项,以数据库表结构形式进行展示。
2.确定数据