Python爬虫-----周东海

Scrapy安装与使用

打开命令提示符下载安装Scrapy所必须的环境:

优先下载python下载更新文件:python -m pip install --upgrade pip

然后在下载这四个:pip install wheel        

                                pip install lxml                

                                pip install twisted

                                pip install pywin32

                                pip install scrapy

下载之后输入:pip list查询是否下载成功

创建项目

打开终端输入:scrapy startproject 项目名

然后输入:cd  (刚创建的项目名)                        进入项目中

最后拟定项目名:scrapy genspider (拟定的爬虫名字) (网址)

创建后文件为

 

 

 

 修改文件

 修改setting文件

#是否遵循机器协议
ROBOTSTXT_OBEY = False

 

#爬虫等待时间
DOWNLOAD_DELAY = 1。
#默认请求头
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
}
#定义管道优先级
ITEM_PIPELINES = {
   'TXmovies.pipelines.TxmoviesPipeline': 300,
}

   

class TxmoviesItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

Field方法实际上的做法是创建一个字典,给字典添加一个建,暂时不赋值,等待提取数据后再赋值。下面item的结构可以表示为:{'name':'','descripition':''}
 如:class TxmoviesItem(scrapy.Item):
        name = scrapy.Field()

  写自己的爬虫程序,最后写一个跑的程序。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值