scrapy学习之使用selector选择器提取信息

最新推荐文章于 2022-01-10 12:07:22 发布

破法者之终结

最新推荐文章于 2022-01-10 12:07:22 发布

阅读量663

点赞数

分类专栏： scrapy学习笔记

本文链接：https://blog.csdn.net/wojiucaonen/article/details/90769284

版权

scrapy学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

习惯于使用beautifulsoup提取信息后，在学习过程中发现大佬都爱用selector选择器，所以学习一下

使用选择器

crapy中调用选择器的方法非常的简单，下面我们从实例中进行学习。
以博客园首页的信息作为例子，演示使用选择器抓取数据，下图是首页的html信息，我们下面就是抓取标题，链接，阅读数，评论数。
在这里插入图片描述

import scrapy
from scrapy.selector import Selector

class Cnblog_Spider(scrapy.Spider):

    name = "cnblog"
    allowed_domains = ["cnblogs.com"]
    start_urls = [
     'https://www.cnblogs.com/',
    ]

    def parse(self, response):
        selector = Selector(response=response)
        title = selector.xpath('//a[@class="titlelnk"]/text()').extract()
        link = selector.xpath('//a[@class="titlelnk"]/@href').extract()
        read = selector.xpath('//span[@class="article_comment"]/a/text()').extract()
        comment = selector.xpath('//span[@class="article_view"]/a/text()').extract()
        print('这是title：',title)
        print('这是链接：', link)
        print('这是阅读数', read)
        print('这是评论数', comment)

选择器的使用可以分为下面的三步：

导入选择器from scrapy.selector import Selector
创建选择器实例 a = Selector(response=response)
使用选择器a.xpath()或者a.css()

其实，由于scrapy提供了简便方法，我们直接使用response.xpath()就可以了，并没有导入什么，实例化什么，可以说非常方便了，当然直接response.css()一样可以。

拓展

extract()

观察代码，你会发现每个选择器后面都有一个extract()，因为选择器提取后的内容为selectorlist的实例，依然为选择器列表，可以继续使用selector选择器来提取，使用extract后即转换为字符串

extract_first()
如果想要提取到第一个匹配到的元素, 可以调用

response.xpath('//span[@class="article_view"]/a/text()').extract_first()

这样我们就拿到了第一个匹配的数据，当然，我们之前提到了选择器返回的数据是一个列表，那么你当然可以使用

response.xpath('//span[@class="article_view"]/a/text()').extract()[0]

破法者之终结

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy学习之使用selector选择器提取信息

习惯于使用beautifulsoup提取信息后，在学习过程中发现大佬都爱用selector选择器，所以学习一下使用选择器crapy中调用选择器的方法非常的简单，下面我们从实例中进行学习。以博客园首页的信息作为例子，演示使用选择器抓取数据，下图是首页的html信息，我们下面就是抓取标题，链接，阅读数，评论数。import scrapyfrom scrapy.selector import...
复制链接

扫一扫

专栏目录