Scrapy 项目部署问题及解决方案

最新推荐文章于 2024-09-15 21:58:44 发布

q56731523

最新推荐文章于 2024-09-15 21:58:44 发布

阅读量852

点赞数 28

文章标签： scrapy oracle 数据库 python sqlite

本文链接：https://blog.csdn.net/weixin_44617651/article/details/141156153

版权

部署 Scrapy 项目时可能会遇到一些常见问题。以下是几个常见的部署问题及其解决方案：

1、依赖问题

问题：部署后爬虫运行失败，通常是由于缺少依赖库。

2、配置问题

问题：爬虫在部署环境中无法正常运行，可能是由于配置文件错误或缺失。

在这里插入图片描述

3、数据库连接问题

问题：爬虫运行时无法连接数据库。

4、存储和日志问题

问题：数据存储或日志记录出现问题。

5、定时任务和调度

问题：爬虫任务未按预期调度或运行。

6、错误处理

问题：爬虫在运行时遇到错误或异常。

7、资源限制

问题：爬虫运行时受限于内存或 CPU 资源。

一、问题背景

项目名称：dirbot
项目路径：/var/www/api/scrapy/dirbot
使用版本：Scrapy 0.16.3
Scrapyd 部署：aptitude install scrapyd-0.16

用户在项目目录中使用 scrapy deploy 命令尝试部署项目时遇到以下错误：

/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/scrapy/settings/deprecated.py:23: ScrapyDeprecationWarning: You are using the following settings which are deprecated or obsolete (ask scrapy-users@googlegroups.com for alternatives):
    BOT_VERSION: no longer used (user agent defaults to Scrapy now)
  warnings.warn(msg, ScrapyDeprecationWarning)
Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 5, in <module>
    pkg_resources.run_script('Scrapy==0.16.3', 'scrapy')
  File "/usr/lib/python2.7/dist-packages/pkg_resources.py", line 499, in run_script
    self.require(requires)[0].run_script(script_name, ns)
  File "/usr/lib/python2.7/dist-packages/pkg_resources.py", line 1235, in run_script
    execfile(script_filename, namespace, namespace)
  File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/EGG-INFO/scripts/scrapy", line 4, in <module>
    execute()
  File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/scrapy/cmdline.py", line 131, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/scrapy/cmdline.py", line 76, in _run_print_help
    func(*a, **kw)
  File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/scrapy/cmdline.py", line 138, in _run_command
    cmd.run(args, opts)
  File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/scrapy/commands/deploy.py", line 76, in run
    f = urllib2.urlopen(req)
  File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 406, in open
    response = meth(req, response)
  File "/usr/lib/python2.7/urllib2.py", line 519, in http_response
    'http', request, response, code, msg, hdrs)
  File "/usr/lib/python2.7/urllib2.py", line 444, in error
    return self._call_chain(*args)
  File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 527, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 404: Not Found

同时，在使用 scrapy deploy -L scrapyd2 命令列出部署项目时也遇到了同样的错误。

二、解决方案

检查项目配置：

确保 scrapy.cfg 配置文件中的 [deploy:scrapyd2] 部分正确，包括 url、username 和 password。
检查 Scrapyd 服务：

确保 Scrapyd 服务正在运行，并且可以访问项目所在的目录。
检查项目路径：

确保项目路径正确，并且 Scrapyd 服务具有读取该路径的权限。
检查 web 服务器配置：

确保 web 服务器正确配置，并且可以访问 Scrapyd 服务的 API。
检查项目代码：

确保项目代码中没有语法错误或其他问题，并且项目可以正常运行。
检查 Scrapy 版本：

确保 Scrapy 版本与 Scrapyd 服务的版本兼容。
检查 python egg：

确保项目中没有使用过时的 python egg，并且已经安装了最新的 python egg。
检查 addversion.json 文件：

确保项目中存在 addversion.json 文件，并且该文件具有正确的格式和内容。
检查 web 站点的状态：

确保要爬取的 web 站点处于正常状态，并且没有出现 404 错误。