腾讯案例
今后用什么方式来爬取数据? - 先实现功能 - 优化程序
是根据自己掌握技术的优先级
需求:
- 爬取腾讯招聘岗位 翻页 csv保存,包含详情页对岗位的全部要求
https://careers.tencent.com/search.html?index=1 第一页
https://careers.tencent.com/search.html?index=2 第二页
https://careers.tencent.com/search.html?index=3 第三页
第一步 分析页面
-
目标url。页面是动态加载的,想要爬取的职位在该url下找不到,观察network找到下面接口url,每个职位的详情页的url也是动态加载的
-
主页第一页
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1622635924738&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn -
详情页第一个
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1622636020266&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=2&pageSize=10&language=zh-cn&area=cn
第二步 实现步骤
- 1 创建scrapy项目
scrapy startproject tencent
2 创建爬虫程序
scrapy genspider hr tencent.com
3 实现逻辑