利用scrap实现发送邮件,一个小实例

应用场景:在爬虫关闭或者爬虫空闲时可以通过发送邮件的提醒。

通过twisted的非阻塞IO实现,可以直接写在spider中,也可以写在中间件或者扩展中,看你具体的需求。

 

看下面的示例代码前,先看下官网,熟悉基本的属性。

官网地址sending e-mail:https://docs.scrapy.org/en/latest/topics/email.html?highlight=MailSender

1、首先在settings同级的目录下创建extendions(扩展)文件夹,

代码如下:

import logging
from scrapy import signals
from scrapy.exceptions import NotConfigured
from scrapy.mail import MailSender
logger = logging.getLogger(__name__)
class SendEmail(object):

    def __init__(self,sender,crawler):
        self.sender = sender
        crawler.signals.connect(self.spider_idle, signal=signals.spider_idle)
        crawler.signals.connect(self.spider_closed, signal=signals.spider_closed)

    @classmethod
    def from_crawler(cls,crawler):
        if not crawler.settings.getbool('MYEXT_ENABLED'):
            raise NotConfigured

        mail_host = crawler.settings.get('MAIL_HOST') # 发送邮件的服务器
        mail_port = crawler.settings.get('MAIL_PORT') # 邮件发送者
        mail_user = crawler.settings.get('MAIL_USER') # 邮件发送者
        mail_pass = crawler.settings.get('MAIL_PASS') # 发送邮箱的密码不是你注册时的密码,而是授权码!!!切记!

        sender = MailSender(mail_host,mail_user,mail_user,mail_pass,mail_port) #由于这里邮件的发送者和邮件账户是同一个就都写了mail_user了
        h = cls(sender,crawler)

        return h

    def spider_idle(self,spider):
        logger.info('idle spider %s' % spider.name)

    def spider_closed(self, spider):
        logger.info("closed spider %s", spider.name)
        body = 'spider[%s] is closed' %spider.name
        subject = '[%s] good!!!' %spider.name
        # self.sender.send(to={'zfeijun@foxmail.com'}, subject=subject, body=body)
        return self.sender.send(to={'zfeijun@foxmail.com'}, subject=subject, body=body)

注:这里为什么是return self.sender.send,是因为直接用sender.send会报builtins.AttributeError: 'NoneType' object has no attribute 'bio_read'的错误(邮件会发送成功),具体原因不是很懂,有大牛知道的可以指导一下。

解决方法参考:https://github.com/scrapy/scrapy/issues/3478

sender.send前加return就好了。

2、在扩展中写好代码后,需要在settings中启用

EXTENSIONS = {
    # 'scrapy.extensions.telnet.TelnetConsole': 300,
    'bukalapak.extendions.sendmail.SendEmail': 300,
}
MYEXT_ENABLED = True

部分资料参考自:必学智库

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
为了实现这个目标,我们可以使用Scrapy的内置功能和第三方库来创建一个可视化的爬虫。 首先,我们需要安装一些必要的库: ``` pip install scrapy scrapy-splash scrapyrt scrapyrt[dashboard] scrapyd-client ``` 然后,我们需要创建一个Scrapy项目并生成一些爬虫代码: ``` scrapy startproject myproject cd myproject scrapy genspider myspider myspider.com ``` 接下来,我们需要在middlewares中添加SplashMiddleware,以便使用Splash渲染JavaScript动态页面: ``` # settings.py DOWNLOADER_MIDDLEWARES = { 'scrapy_splash.SplashCookiesMiddleware': 723, 'scrapy_splash.SplashMiddleware': 725, 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810, } SPLASH_URL = 'http://localhost:8050/' ``` 然后,我们需要在spider中添加SplashRequest来获取渲染后的页面: ``` # myspider.py from scrapy_splash import SplashRequest class MySpider(scrapy.Spider): name = "myspider" def start_requests(self): yield SplashRequest( url="http://example.com", callback=self.parse, endpoint="render.html", args={"wait": 0.5}, ) def parse(self, response): # Parse the response here ``` 最后,我们可以使用Scrapyrt和scrapyd-client来创建一个可视化的爬虫,让用户可以通过Web界面来控制和监视爬虫的运行。 具体步骤如下: 1. 在scrapyd中部署我们的项目: ``` scrapyd-deploy myproject ``` 2. 安装Scrapyrt和scrapyd-client: ``` pip install scrapyrt scrapyd-client ``` 3. 启动Scrapyrt服务: ``` scrapyrt -p 9080 ``` 4. 创建一个Flask应用程序,使用scrapyd-client调用Scrapyd API来控制和监视爬虫的运行: ``` from flask import Flask, request from scrapyd_api import ScrapydAPI app = Flask(__name__) scrapyd = ScrapydAPI('http://localhost:6800') @app.route('/runspider', methods=['POST']) def runspider(): spider = request.json.get('spider') response = scrapyd.schedule('myproject', 'default', spider) return response if __name__ == '__main__': app.run(port=5000) ``` 5. 创建一个可视化界面,使用户可以通过Web界面来控制和监视爬虫的运行。 这个过程可能有点复杂,但是通过Scrapy和相关库的配合,我们可以快速地创建一个可视化的爬虫。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值