爬取腾讯招聘网站 - scrapy - python爬虫案例

洋芋本人

于 2021-06-06 17:46:53 发布

阅读量823

点赞数 1

分类专栏： python项目练习文章标签： python csv

本文链接：https://blog.csdn.net/weixin_43761516/article/details/117602679

版权

本文介绍如何使用Python的Scrapy框架爬取腾讯招聘网站的岗位信息，并将其存储为CSV文件。首先分析页面接口，找到动态加载的数据源，然后创建Scrapy项目，依次设置start.py、settings.py、hr.py、item.py、middlewares.py和pipelines.py文件，实现数据抓取和存储。最终成功爬取了9900多条职位详情。

摘要由CSDN通过智能技术生成

腾讯案例

今后用什么方式来爬取数据？ - 先实现功能 - 优化程序
是根据自己掌握技术的优先级

需求：

爬取腾讯招聘岗位翻页 csv保存，包含详情页对岗位的全部要求
https://careers.tencent.com/search.html?index=1 第一页
https://careers.tencent.com/search.html?index=2 第二页
https://careers.tencent.com/search.html?index=3 第三页

第一步分析页面

目标url。页面是动态加载的，想要爬取的职位在该url下找不到，观察network找到下面接口url，每个职位的详情页的url也是动态加载的
主页第一页
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1622635924738&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn
详情页第一个
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1622636020266&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=2&pageSize=10&language=zh-cn&area=cn