python框架之scrapy初入门附详细例子讲解

安装环境不多说了,要求环境有:

python

pip

 

然后直接pip3 install scrapy

一些踩的坑就不在此文详表;

 

选择器分两种,xpath和css;

粘上官网的实例代码,我加了两句:

import scrapy
  

class TestSpider(scrapy.Spider):
    name = 'test'
    #allowed_domains = ['http://quotes.toscrape.com/']
    start_urls = ['http://quotes.toscrape.com//']

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'authorForCss':quote.css('small.author::text').get(),
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
                'testForXpath':quote.xpath('span/text()').getall(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

css:这个选择器主要看标签名,类似这个要找作者名字,是在small标签里,所以只需要small.author::text   text是属性,拿里面的文档。

xpath:这个选择器主要适应多标签里的多内容,像这个作者名存在span下的small里,就可以用xpath,因为get()只会拿第一个返回;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值