scrapy京东翻页爬取

最新推荐文章于 2024-05-02 17:41:07 发布

Pop–

最新推荐文章于 2024-05-02 17:41:07 发布

阅读量780

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45026839/article/details/105771712

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

获取下一页的链接
如果下一页有值，就发送下一页的请求，没有就什么都不做

    # 只爬取 前5页
        self.page += 1
            if self.page > 4:
                return

        # 列表翻页
        # 1. 取出  下一页 标签 的 URL 网址不齐全
        next_url = response.xpath('//a[@class="pn-next"]/@href').extract_first()

        # 2. 发送 下一页的请求 可以
        if next_url: # 判断结束 如果 next_url 为none 就结束了
            yield response.follow(
                next_url,
                callback=self.parse_book,
                meta={'book': item}
            )

这里常常会出现深拷贝和浅拷贝的问题，所以我们这里要用到一个函数deepcopy所以我们要导入一个包：from copy import deepcopy

翻页代码的放置位置应该放在解析书籍信息里
到此翻页获取书籍信息基本完成：因数据太多，此处爬取了5页每页2本书，其中价格已经成功获取到，接下来就是管道入库了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。