python--爬虫学习(一)环境安装,项目创建

【前提】

已经有python环境(目前安装是python3.6版本)

对python语言有一定的基础

 

 

一、爬虫框架了解

   这次选用的是现成的爬虫框架scrapy ,scrapy是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。架构非常清晰,耦合度非常低,方便扩展

scrapy Engine :scrapy 的引擎

Scheduler:调度器

item pipeline:管道,封装去重类,过滤或者存储

Spiders:爬虫  解析处理

Downloders:下载器

中间件:Downloders Middllewares  下载中间件

               Spider Middllewares 

 

二、下载

进入到python pip目录下直接用命令下载

C:\Python36\Scripts

下载的命令pip install scrapy,一切顺利的话就一次全部搞定,就是等待时间稍长一些,我就是那个一次顺利的幸运儿。

三、数据库安装,因为本人用的是windows,所以就参照前人写好的,直接照搬就好了

https://www.cnblogs.com/sfencs-hcy/p/10182348.html

四、新建项目

1、先切换到想要创建scrapy爬虫项目的目录下如下图,然后用命令scrapy startproject ddpctest (ddpctest是项目名称),创建完如下图所示

 

创建成功之后,一个scrapy的项目框架已经创建完成,可以用pycharm 打开该项目

上图的树形结构中,spider目录里面好像是空的,我们可以用命令行创建一个spider文件。

i、切换到scrapy对应的spider目录下面  cd spiders

ii、创建一个spider文件   

>scrapy genspider ddtest_spider movie.douban.com

文件创建成功之后,一个基本的scrapy框架已基本完成。接下来就是学习如何使用了

 

 

 

来源:慕课网https://www.imooc.com/video/17533/0

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值