数据准备和处理
在前面两篇博客中完成了定时爬虫任务的编写,完成了对招聘信息的实时爬取,完成了数据的准备工作,然后要对数据进行处理以便使用。
对文章标题分析后发现,文章的标签是人工手动输入并且以【中括号】包裹和斜线 / 分割,所以需要把文章的标签提取出来单独保存一张表建立倒排索引以便于按标签查询招聘信息,最终处理结果:
招聘模块总共分为四个接口:
/recruitment/tagList 获取标签列表
/recruitment/detail 按选择的tag获取分页后的招聘信息列表
/recruitment/search 按关键词进行模糊查询获取分页后的招聘信息列表
/recruitment/home 默认招聘信息首页获取全部信息列表