Python爬虫15-Scrapy爬取腾讯招聘网信息

Scrapy爬取腾讯招聘网信息


需求:爬取多页职位详情内容,实现翻页请求

scrapy.Request知识点

在这里插入图片描述
1、创建一个scrapy项目

scrapy startproject tencent

2、生成一个爬虫文件

scrapy genspider tc tencent.com

3、设置settings,添加log日志等级

4、分析页面url

在这里插入图片描述
在这里插入图片描述

5、开始编写代码

在这里插入图片描述

    def parse(self, response):
        for page in range(1,6):
            # 拼接起始页url
            url1=self.start_url.format(page)
            # scrapy内部请求框架
            yield scrapy.Request(
                 url=url1,
        # callback 指定传入的url交给一个解析函数去处理
                 callback=self.parse1
        )
    # 起始页
    def parse1(self,response):
        js=json.loads(response.text)
        for job in js['Data']['Posts']:
            item = {}
            item['Location'] = job['LocationName']
            item['Name'] = job['RecruitPostName']
            post_id=job['PostId']

            # 拼接详情页url
            url2=self.detail_url.format(post_id)
            yield scrapy.Request(
                url=url2,
                callback=self.parse2,
                # meta 将数据传给下一个函数
                meta={'item':item}   
            )
    # 详情页
    def parse2(self,response):
        # 接收上面传的dict数据
        item=response.meta.get('item')   
        js=json.loads(response.text)
        # 爬取岗位职责
        item['duty']=js['Data']['Responsibility']
        # 爬取岗位要求
       item['requirement']=js['Data']['Requirement']
        print(item)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值