学习笔记(02):150讲轻松搞定Python网络爬虫-Scrapy框架-实战-古诗文网爬虫实战（3）...

最新推荐文章于 2024-07-27 12:20:46 发布

中年阿呆

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量192

点赞数

分类专栏：研发管理文章标签： python 网络爬虫编程语言 Python 数据存储

本文链接：https://blog.csdn.net/weixin_45808678/article/details/105709488

版权

研发管理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/24756/283289?utm_source=blogtoedu

在parse中，一页提取多个相同位置的内容的时候，用xpath可以先获取代码块，然后用遍历的方式获取自己需要的内容，如果直接提取每个内容，就会在PIP管道中输出的是每个内容的列表，不能形成完整的内容，而是相同的内容成为了列表。scrapy.Request(url),再用yield返回，就可以重新在parse中读取内容。适用于普通的翻页。

gushiwens =response.xpath('//*[@class ="sons"]')
        for gushiwen in gushiwens:
            title = gushiwen.xpath('.//b/text()').getall()
            source =gushiwen.xpath('.//p[@class="source"]/a/text()').getall()
            dynasty =source[0]
            autor =source[1]
            neirong =gushiwen.xpath('.//div[@class ="contson"]//text()').getall()
            neirong =''.join(neirong).strip()
            item =ExmpleItem(title = title,dynasty =dynasty,autor =autor,neirong =neirong)
            yield item

        next_href=response.xpath('//a[@href ="amore"]/@href')
        next_url =response.urljoin(next_href)
        request = scrapy.Request(next_url)
        yield request

中年阿呆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(02):150讲轻松搞定Python网络爬虫-Scrapy框架-实战-古诗文网爬虫实战（3）...

【课程介绍】本课程总体分成五大模块，分别是网络请求、数据解析、数据存储、爬虫进阶、Scrapy框架和分布式爬虫，包含了一个爬虫工程师需要掌握的几乎所有技能，知识点非常体系。实战部分都是紧贴知识点，即学即用，紧跟潮流。课程还配有许多作业，通过作业可以让学生实现真正把技术转成自己的技能的目的。【课程内容包括】共150讲课程+...
复制链接

扫一扫