# -*- coding: utf-8 -*- import scrapy from urllib import request from Py06_2018_3_16.items import TencentItem class tencentNextPageSpider(scrapy.Spider): name = 'tencent_next_page' allowed_domains = ['hr.tencent.com'] start_urls = ['https://hr.tencent.com/position.php?&start=0'] # base_url='https://hr.tencent.com/position.php?&start=%s' # for i in range(0,391): # # url=base_url%(i*10) # start_urls.append(url) def parse(self, response): job_even=response.xpath('//tr[@class="even"]') job_odd=response.xpath('//tr[@class="odd"]') #合并数组 jobs=job_even+job_odd for job
Python3~scrapy项目之爬取当前页和下一页
最新推荐文章于 2024-08-05 17:23:58 发布
本文介绍了一个使用Scrapy框架爬取腾讯官网职位信息的Python3项目,包括当前页和下一页的数据。通过解析网页HTML,提取职位的日期、地点、人数、类型、名称和链接,并进一步请求详情页获取工作职责和要求。
摘要由CSDN通过智能技术生成