scrapy爬虫安装及环境配置和出现的问题(贼全)

原文:https://blog.csdn.net/gty931008/article/details/80257091 

scrapy是基于python的开源爬虫框架,功能极其强大,扩展性好,几十行代码就可以实现强大的python爬虫。

自己在windos下进行的安装,出现无数次ng,下面会有指出。

安装前提要求:

1.python安装好,并配置好环境配置。这里我是用的python3.6

2.python已经安装好了虚拟环境。对于虚拟环境不懂得可以搜索python虚拟环境(virtualenv)配置或者通过pycharm进行虚拟环境搭建。

3.pip安装   

进入cmd 安装pip  
python get-pip.py 
4.Microsoft Visual C++ 14 以上,可以在控制面板里面查看是否已经安装,

不然会安装会以下报错误

building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
    环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址;

5.scrapy依赖的whl  twisted、lxml、pywin32。这里这里涉及到下载地址的问题,非常影响下载速度。建议使用豆瓣源

   https://pypi.douban.com/simple/

    (一)twisted安装

pip install -i https://pypi.douban.com/simple/ Twisted
    如果还出错,到

   http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 

下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行命令:

pip install D:\TDownloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
   随便找一个.whl安装包下载,安装,又会碰到一些问题:

提示pip需要升级,根据它给的建议升级
提示[filename.whl is not supported wheel on this platform]
    如果还提示不支持platform,就把win32和win64的版本都下下来分别试一下,我的系统是64位但是装32位的whl才能成功
    

(二)lxml安装

pip install -i https://pypi.douban.com/simple/ lxml
但是还是有可能遇到很多坑,建议手动安装
    https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

版本选择同上面的Twisted。
    
(三)pywin32安装
     一般不会报错

Pip install -i https://pypi.douban.com/simple/ pypiwin32 
安装Scrapy:


Pip install -i https://pypi.douban.com/simple/ scrapy
这个时候可以运行 

 pip list
可以看到安装在虚拟环境里的模块。

也可以进入所属虚拟环境目录里script下面看看是否存在

安装完成后即可创建scrapy项目

scrapy项目创建

1、创建项目

运行命令:

1
scrapy startproject p1(your_project_name)
2.自动创建目录的结果:通过pycharm打开

文件说明:

scrapy.cfg  项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
items.py    设置数据存储模板,用于结构化数据,如:Django的Model
pipelines    数据处理行为,如:一般结构化的数据持久化
settings.py 配置文件,如:递归的层数、并发数,延迟下载等
spiders      爬虫目录,如:创建文件,编写爬虫规则
注意:一般创建爬虫文件时,以网站域名命名
 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值