想写个爬虫,看大家用的最多的是 python 库 scrapy,结果环境啊各种问题搞得真是麻烦。。。
linux 下注意:
scrapy 安装需要 Python 2.7 以上,但是 centos6 提供的是 Python2.6,而且因为系统各种工具包括 yum 都基于Python2.6,所以不能简单的升级。
网上教程表示可以源码安装并修改软链到 2.7,然后将系统其它工具如 yum 等的解析脚本由 python 修改为带具体版本号的 python 2.6
我觉得这样不太好,因为影响到的工具太多,不希望每个工具都这样修改。
。。。。。
所以我换到 windows 下了。(额)
windows 下注意:
scrapy 要调用 win api,所以需要安装 pywin。
python 是分64版本和32版本的。如果安装的时候是 64 位的,pywin32 安装时就表示找不到 python27,原因是安装64位 python 时候注册表没有注册 win32 版本。
网上有说可以将注册项拷贝到 win32 相应注册表下,我觉得这样也不太好。
所以就把 python 和 pywin 改为位数一致,我统一改成了 32 位。
然后装了 intellij 的 python 插件,pycharm,发现 import 不能正常识别,哈,其实 file -> project structure 把 python sdk 加上就好了。
然后 scrapy 终于可以正常 crawl 了。