【前提】
已经有python环境(目前安装是python3.6版本)
对python语言有一定的基础
一、爬虫框架了解
这次选用的是现成的爬虫框架scrapy ,scrapy是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。架构非常清晰,耦合度非常低,方便扩展
scrapy Engine :scrapy 的引擎
Scheduler:调度器
item pipeline:管道,封装去重类,过滤或者存储
Spiders:爬虫 解析处理
Downloders:下载器
中间件:Downloders Middllewares 下载中间件
Spider Middllewares
二、下载
进入到python pip目录下直接用命令下载
C:\Python36\Scripts
下载的命令pip install scrapy,一切顺利的话就一次全部搞定,就是等待时间稍长一些,我就是那个一次顺利的幸运儿。
三、数据库安装,因为本人用的是windows,所以就参照前人写好的,直接照搬就好了
https://www.cnblogs.com/sfencs-hcy/p/10182348.html
四、新建项目
1、先切换到想要创建scrapy爬虫项目的目录下如下图,然后用命令scrapy startproject ddpctest (ddpctest是项目名称),创建完如下图所示
创建成功之后,一个scrapy的项目框架已经创建完成,可以用pycharm 打开该项目
上图的树形结构中,spider目录里面好像是空的,我们可以用命令行创建一个spider文件。
i、切换到scrapy对应的spider目录下面 cd spiders
ii、创建一个spider文件
>scrapy genspider ddtest_spider movie.douban.com
文件创建成功之后,一个基本的scrapy框架已基本完成。接下来就是学习如何使用了
来源:慕课网https://www.imooc.com/video/17533/0