1. 安装python 官网安装即可
2. 安装mysql或者其他数据库
3. 安装scrapy cmd->pip install scrapy
4. 安装社区版的Pycharm,然后新创一个项目空间(pycharm_workspace)
5. Pycharm建立编译环境:打开Pycharm,执行File->Settings,添加解释器Project Interpreter
例:
爬 取博客园新闻网首页标题:
① cmd终端cd到刚才新创的文件夹(pycharm_workspace),输入以下命令
scrapy startproject searchArticle
② 在cmd终端输入命令cd searchArticle,定位到searchArticle文件夹下
然后设置爬虫名称及要爬取的网站:
scrapy genspider blogs news.cnblogs.com # 其中blogs是自定义的爬虫名称
# news.cnblogs.com 是需要爬取的网站地址
③ 打开pycharm,执行File->Open,输入新建项目的地址: D:...../pycharm_workspace
④ 项目打开后,输入爬取博客园第一页的新闻标题代码
a. blogs.py