scrapy 爬取不在同一级页面的属性

最新推荐文章于 2022-03-23 11:07:31 发布

wzsyf

最新推荐文章于 2022-03-23 11:07:31 发布

阅读量295

点赞数 1

分类专栏： scrapy 爬虫文章标签： scrapy爬虫

本文链接：https://blog.csdn.net/wzsyf/article/details/91044023

版权

在进行scrapy爬虫时，要爬取不在同一级页面的属性，使用yield scrapy.Request(url=videolink, meta={'item':item}, callback=self.parseReal2)来进行item的传递，这样就可以爬取不在同一级页面的属性，并yield给最后的item了。

    def parseReal(self, response):

        jsons = json.loads(response.body)
        res = jsons['data']

        if len(res):
            for index in range(len(res)):
                item = YoukuItem()
                videolink = "https:" + res[index]['videoLink']

                #视频Id
                item['videoid'] = res[index]['videoId']
                #视频url
                item['url'] = videolink
                #视频名称
                item['videoname'] = res[index]['title'].encode('utf-8')

                yield scrapy.Request(url=videolink, meta={'item':item}, callback=self.parseReal2)


    def parseReal2(self, response):

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wzsyf

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy 爬取不在同一级页面的属性

在进行scrapy爬虫时，要爬取不在同一级页面的属性，使用yield scrapy.Request(url=videolink, meta={'item':item}, callback=self.parseReal2)来进行item的传递，这样就可以爬取不在同一级页面的属性，并yield给最后的item了。 def parseReal(self, response): ...
复制链接

扫一扫