scrapy学习之使用selector选择器提取信息

习惯于使用beautifulsoup提取信息后,在学习过程中发现大佬都爱用selector选择器,所以学习一下

使用选择器

crapy中调用选择器的方法非常的简单,下面我们从实例中进行学习。
以博客园首页的信息作为例子,演示使用选择器抓取数据,下图是首页的html信息,我们下面就是抓取标题,链接,阅读数,评论数。
在这里插入图片描述

import scrapy
from scrapy.selector import Selector

class Cnblog_Spider(scrapy.Spider):

    name = "cnblog"
    allowed_domains = ["cnblogs.com"]
    start_urls = [
     'https://www.cnblogs.com/',
    ]

    def parse(self, response):
        selector = Selector(response=response)
        title = selector.xpath('//a[@class="titlelnk"]/text()').extract()
        link = selector.xpath('//a[@class="titlelnk"]/@href').extract()
        read = selector.xpath('//span[@class="article_comment"]/a/text()').extract()
        comment = selector.xpath('//span[@class="article_view"]/a/text()').extract()
        print('这是title:',title)
        print('这是链接:', link)
        print('这是阅读数', read)
        print('这是评论数', comment)

选择器的使用可以分为下面的三步:

  1. 导入选择器from scrapy.selector import Selector
  2. 创建选择器实例 a = Selector(response=response)
  3. 使用选择器a.xpath()或者a.css()

其实,由于scrapy提供了简便方法,我们直接使用response.xpath()就可以了,并没有导入什么,实例化什么,可以说非常方便了,当然直接response.css()一样可以。

拓展

  • extract()

观察代码,你会发现每个选择器后面都有一个extract(),因为选择器提取后的内容为selectorlist的实例,依然为选择器列表,可以继续使用selector选择器来提取,使用extract后即转换为字符串

  • extract_first()
    如果想要提取到第一个匹配到的元素, 可以调用
response.xpath('//span[@class="article_view"]/a/text()').extract_first()

这样我们就拿到了第一个匹配的数据,当然,我们之前提到了选择器返回的数据是一个列表,那么你当然可以使用

response.xpath('//span[@class="article_view"]/a/text()').extract()[0]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值