scrapy初学习--爬取豆瓣新片榜

爬取豆瓣榜单遇到403错误

如图
在这里插入图片描述
解决方法:
在setting.py中添加user agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

爬取成功
在这里插入图片描述

效果

这是新片榜
在这里插入图片描述
爬取结果
在这里插入图片描述

元素选择

使用xpath进行元素选择.

from lxml import etree

html = etree.parse('./douban.html', etree.HTMLParser())
result = html.xpath('//tr/td/a/@title') # 获取a节点的title属性
# result = html.xpath('//tr/td/a[@class='test']') # 获取a节点且class为test的元素
print(result)

test2 = html.xpath('//div[@class="star clearfix"]/span[@class="rating_nums"]/text()')
print(test2)

代码

scrapy对url的爬取可以并行的, 也就是说第二个url不用等第一个爬完, 也不会相互影响.

建立scrapy项目之后, 在spiders目录下新建自己的爬虫代码py文件.
写好后, 使用命令scrapy crawl douban_chat执行

代码如下

import scrapy
import re

class QuotesSpider(scrapy.Spider):
    name = "douban_chat" # 爬虫名字, 在命令行下会用到

    def start_requests(self):
        urls = [
            'https://movie.douban.com/chart',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # xpath 选择器 + 正则表达式找出电影标题和评分
        titles_raw = response.xpath('//div/table/tr').getall()
        titles = ""
        for each in titles_raw:
            try:
                title = re.findall(r'title="(.+)">', each)[0]
                score = re.findall(r'rating_nums">(.+)</span>', each)[0]
                titles += title + " : " + score + '\n'
            except:
                pass

        page = response.url.split("/")[-2]
        filename = '%s.html' % page
        with open(filename, 'w+', encoding='utf-8') as f:
            f.write(titles)
        self.log('Saved file %s' % filename)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用分布式scrapy-redis进行爬取豆瓣电影top250,需要进行以下步骤: 1. 安装ScrapyScrapy-Redis 首先需要安装ScrapyScrapy-Redis,可以使用以下命令进行安装: ``` pip install scrapy pip install scrapy-redis ``` 2. 配置Redis数据库 配置Redis数据库,用于存储爬虫的请求队列和爬取结果。可以在本地搭建一个Redis服务器,也可以使用云服务提供商提供的Redis服务。 3. 创建Scrapy项目 使用命令行工具创建Scrapy项目: ``` scrapy startproject douban_top250 ``` 4. 配置Scrapy-Redis 在settings.py文件中添加以下配置信息: ``` # 开启Redis调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 去重过滤器,使用Redis数据库进行去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 将爬取到的数据存储到Redis数据库中 ITEM_PIPELINES = { "scrapy_redis.pipelines.RedisPipeline": 300 } # Redis数据库连接配置 REDIS_HOST = 'localhost' REDIS_PORT = 6379 ``` 5. 创建Spider 在spiders目录下创建一个名为douban.py的Spider文件,编写爬取代码,例如: ``` from scrapy_redis.spiders import RedisSpider class DoubanSpider(RedisSpider): name = 'douban' allowed_domains = ['movie.douban.com'] redis_key = 'douban:start_urls' def parse(self, response): # 爬取代码 ``` 6. 启动爬虫 在命令行中启动爬虫: ``` scrapy crawl douban ``` 爬虫会自动将请求放入Redis数据库中,多个爬虫节点可以同时从Redis数据库中获取请求进行爬取,实现分布式爬取

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值