爬虫Scrapy框架的安装和使用(Python)

Scrapy框架:

    好处: 省事,快速搭建一个系统,快速抓取数据。
    坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。

1.  安装Scrapy

      安装Scrapy in Ubuntu:

               sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev

               sudo pip install scrapy

2.  制作一个Scrapy需要的四个步骤:

      1).  新建爬虫项目

              scrapy  startproject  projectName

         项目目录结构:

        tarena@tedu:~/Spider/tencentSpider$tree.:

            ├──scrapy.cfg

             └──tencentSpider

                      ├── __init__.py

                      ├── items.py

                      ├── middlewares.py

                      ├── pipelines.py

                      ├── settings.py

                      └── spiders

                               └── __init__.py

             明确目标:明确你想要抓取的目标,生成一个具体的爬虫:

                    scrapy  genspider tencent

                    scrapy genspider tencent hr.tencent.com

                   

                下面需要具体取修改代码逻辑,按照我们的需求去实现自己的爬虫逻辑:

                  修改setttings.py 设置

                           pipelines.py保存的逻辑

                           tecent.py,   抓取页面信息和继续跳转的逻辑

                           items.py     保存item的映射

        3) 制作爬虫 (spiders/spiderName.py):制作爬虫开始爬取网页;
        4) 存储内容 (pipelines.py):设计管道存储爬取内容;       
        5) 在Scrapy下启动爬虫:

                scrapy crawl tencent

3. setting.py配置

        BOT_NAME = 'tencentSpider'   # 爬虫名字

        # 可以指定多个存储逻辑的管道

        ITEM_PIPELINES = {

                  "MySQLPipelines": 300,       # 300表示优先级居中

                  "FilePipelines": 200,            # 300表示优先级居中

        }







  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LIJZ_Python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值