Python爬虫 | 初识爬虫框架:Scrapy

一、 Scrapy 框架的安装

pip3 install Scrapy

在这里插入图片描述
出现这个就证明安装好了
BUG传送门:error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools”

二、Scrapy 创建一个新的项目

创建项目:scrapy startproject ProgrammerPlus

在这里插入图片描述
在这里插入图片描述

作用
scrapy.cfg: 项目的配置文件
ProgrammerPlus/: 该项目的python模块。在此放入代码(核心)
ProgrammerPlus/spiders/: 放置spider代码的目录. (放爬虫的地方)
ProgrammerPlus/items.py: 项目中的item文件.(这是创建容器的地方,爬取的信息分别放到不同容器里)
ProgrammerPlus/middlewares.py: 放置spider代码的目录. (放爬虫的地方)
ProgrammerPlus/pipelines.py: 项目中的pipelines文件.
ProgrammerPlus/settings.py: 项目的设置文件.(里边有很多注释好的配置,使用的时候给#删除即可)

进入项目:cd ProgrammerPlus

在这里插入图片描述

创建爬虫:scrapy genspider test(爬虫名) www.xxx.com(网站:可修改)

在这里插入图片描述
在这里插入图片描述

至此 Scrapy 处理最简单地爬虫需要的文件就准备好了

三、 Scrapy 项目基本配置

setting.py

设置成真实的浏览器的 User_Agent

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4292.2 Safari/537.36'

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按 setting.py 定义的优先级处理Item。
ITEM_PIPELINES = {‘组件’ : 优先级}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'ProgrammerPlus.pipelines.ProgrammerplusPipeline': 300,
}

设置日志等级

LOG_LEVEL = 'ERROR'

四、 用 Scrapy 写一个初级爬虫

text.py

import scrapy


class TestSpider(scrapy.Spider):
    name = 'test'
    # allowed_domains = ['www.xxx.com']  #
    start_urls = ['https://www.sogou.com/web?query=ProgrammerPlus']

    def parse(self, response):
        page_list = response.xpath('//*[@id="main"]/div[4]/div/div[@class="rb"]')
        for page in page_list:
            title = page.xpath('./h3/a//text()').extract()
            print(''.join(title))

在项目目录下,执行scrapy crawl test

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿过家家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值