用 Scrapy+Mariadb 实现汉典数据爬虫（一）——开发环境的选择

本文链接：https://blog.csdn.net/zs808/article/details/51611082

最近准备搞大数据，大数据的第一研究方向当属爬虫了，所以就决定从爬虫入手，一步一步做研究。之前用C#写过一个百度云关系网络爬虫，亲身经历了爬取速度从10s一个（单机百度云爬取速度限制）到100个/s（三个端，100个）的改变，也积攒了一些经验。后来曾想过用这些经验写一个爬虫框架，但是以目前的水平，还是有点难度。所以就决定先研究下大牛们开发的开源爬虫框架，从头开始重做关系爬虫，顺带把过程与心得写一下，希望各位朋友提出任何问题，建议，学无止境，共同进步，同时也希望能为那些处于迷惑中的朋友们提供一个借鉴。废话不多说，现在进入正文。

对于开发环境的选择，通过网络上大牛们的比较，Scrapy 0.25中文文档比较全，基于Py2.0。而Scrapy 1.2中文文档相对较少，但是基于Py3.0。从目前阶段来说，虽说后者资料较少，但是作为研究还是挺有意义的，所以最终选择了 Scrapy 1.2 + Py3.0。

由于自己以前从事的是C#开发，使用Visual Studio相对熟练一点，并且Visual Studio 2015 增加了对Python编程的支持，所以选择了Visual Studio 2015作为开发环境。

关于数据库的选择，自己之前写C#爬虫时经历了一个从MySql到MariaDB的转变，因为MaraiDB相比较MySql对于数据的操作速度是快了很多，而且开源社区也很活跃，毕竟是MySQL被收购之后MySQL之父单独创建的分支，其分量不言而喻。

所以，最终决定下来的开发环境如下：

操作系统：WIndows 10

开发语言：Python

开发软件：Visual Studio 2015

爬虫框架：Scrapy 1.2

数据库：Mariadb