爬虫Day05

scrapy介绍、安装及架构

1.安装

**Windows平台**

1、pip3 install wheel 
安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
3、pip3 install lxml
4、pip3 install pyopenssl
5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
8、pip3 install scrapy (可以直接执行此命令,如报错再执行1-7)

2.scrapy架构

1.引擎(EGINE):引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。大总管,负责整个爬虫数据的流动
2.调度器(SCHEDULER)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
3.下载器(DOWLOADER) 用于下载网页内容, 并将网页内容返回给EGINE,下载器是建立在twisted这个高效的异步模型上的(效率很高,同时可以发送特别多请求出出)
4.爬虫(SPIDERS) SPIDERS是开发人员自定义的类,用来解析responses,并且提取items,或者发送新的请求
5.项目管道(ITEM PIPLINES) 在items被提取后负责处理它们,主要包括清理、验证、持久化(比如存到数据库)等操作
6.下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间,主要用来处理从EGINE传到DOWLOADER的请求request,已经从DOWNLOADER传到EGINE的响应response,你可用该中间件做以下几件事
7.爬虫中间件(Spider Middlewares)位于EGINE和SPIDERS之间,主要工作是处理SPIDERS的输入(即responses)和输出(即requests)

3.使用命令创建scrapy项目

Windows + R 启动 cmd 窗口

scrapy startproject maomaofirst_scrapy

创建爬虫项目

# 例如:www.cnblogs.com;爬取博客园

scrapy genspider cnblogs www.cnblogs.com

启动爬虫

scrapy crawl cnblogs

在这里插入图片描述
在这里插入图片描述

4.scrapy项目目录结构

mysfirstscrapy  # 项目名
  mysfirstscrapy # 包
      spiders    # 包,里面放了自定义的爬虫,类似于app
          __init__.py
          baidu.py  # 百度爬虫
          cnblogs.py#cnblogs爬虫
      items.py      #类似于django的 models表模型,一个个模型类
      middlewares.py # 中间件
      pipelines.py #管道---》写持久化
      settings.py #项目配置文件
  scrapy.cfg  # 项目上线配置

5.scrapy解析数据

import scrapy


class CnblogsSpider(scrapy.Spider):
    # 爬虫名字
    name = "cnblogs"
    # 允许爬取的域
    allowed_domains = ["www.cnblogs.com"]
    # 开始爬取的地址
    start_urls = ["https://www.cnblogs.com"]

    # 解析方法
    def parse(self, response):
        # 将HTTP响应包装成了response
        print(response.text)

# 命令
# 启动项目打印日志
# scrapy crawl cnblogs
# 启动项目不打印日志
# scrapy crawl cnblogs --nolog
# 点击右键运行爬虫项目:
1.在spiders包下新建启动文件:run.py
2.在启动文件中写代码
3.右键启动run.py
from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'cnblogs', '--nolog'])

5.1 css选择器解析数据(错的)

import scrapy


class CnblogsSpider(scrapy.Spider):
    # 爬虫名字
    name = "cnblogs"
    # 允许爬取的域
    allowed_domains = ["www.cnblogs.com"]
    # 开始爬取的地址
    start_urls = ["https://www.cnblogs.com"]

    #  css选择器解析方法
    def parse(self, response):
        # 将HTTP响应包装成了response
        # print(response.text)
        # css选择器
        # 解析所有文章
        article_lst = response.css('article.post-item')
        # 解析文章详情:文章标题,文章摘要,作者图片,作者名字,文章详情地址
        for article in article_lst:
            # 文章标题
            title = article.css('section>div>a.post-item-title::text').extract_first()
            # 文章摘要
            # 取文章摘要时可能会出现文章摘要取不到值,是由于有些文章摘要换行,所以应该判断第一行是否有值,如果有值直接取第一行,如果没有值取第二行
            # 文章摘要:['\n  , '\n  摘要\n']
            desc = article.css('p.post-item-summary::text').extract()
            # 将换行和空字符串替换成空
            real_desc = desc[0].replace('\n', '').replace('', '')
            if real_desc:
                desc = real_desc
            real_desc = desc[1].replace('\n', '')
            desc = real_desc
            # 文章图片
            author_img = article.css('p.post-item-summary img::attr(src)').extract_first()
            # 作者名
            author_name = article.css('footer.post-item-foot span::text').extract_first()
            # 文章详情
            url = article.css('div.post-item-text a::attr(href)').extract_first()
            print('''
            文章名字:%s
            文章摘要:%s
            作者图片:%s
            作者名字:%s
            文章地址:%s
            ''' % (title, desc, author_img, author_name, url))

5.2 XPath解析数据

    def parse(self, response):
        article_list = response.xpath('//article[contains(@class,"post-item")]')  # 列表中放对象
        print(len(article_list))
        for article in article_list:
            title = article.xpath('.//a/text()').extract_first()
            desc = article.xpath('.//p[contains(@class,"post-item-summary")]/text()').extract()
            real_desc = desc[0].replace('\n', '').replace(' ', '')
            if real_desc:
                desc = real_desc
            else:
                real_desc = desc[1].replace('\n', '').replace(' ', '')
                desc = real_desc
            author_img = article.xpath('.//p//img/@src').extract_first()
            author_name = article.xpath('.//footer//span/text()').extract_first()
            url = article.xpath('.//div[contains(@class,"post-item-text")]//a/@href').extract_first()
            print('''
            文章名字:%s
            文章摘要:%s
            作者图片:%s
            作者名字:%s
            文章地址:%s
            ''' % (title, desc, author_img, author_name, url))

6.settings配置文件介绍

# 日志级别
LOG_LEVEL = 'ERROR'

# 整个爬虫名字项目名字
BOT_NAME = "maomaofirst_scrapy"

# 爬虫存放位置
SPIDER_MODULES = ["maomaofirst_scrapy.spiders"]
NEWSPIDER_MODULE = "maomaofirst_scrapy.spiders"

# 是否遵循爬虫协议 一般都设为False
ROBOTSTXT_OBEY = True

# 默认scrapy开启的并发线程
# CONCURRENT_REQUESTS = 32


# DOWNLOAD_DELAY = 3
# CONCURRENT_REQUESTS_PER_DOMAIN = 16
# CONCURRENT_REQUESTS_PER_IP = 16

# COOKIES_ENABLED = False


# TELNETCONSOLE_ENABLED = False

# 默认请求头
# DEFAULT_REQUEST_HEADERS = {
#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
#    "Accept-Language": "en",
# }

# 爬虫中间件
# SPIDER_MIDDLEWARES = {
#    "maomaofirst_scrapy.middlewares.MaomaofirstScrapySpiderMiddleware": 543,
# }

# 下载中间件
# DOWNLOADER_MIDDLEWARES = {
#    "maomaofirst_scrapy.middlewares.MaomaofirstScrapyDownloaderMiddleware": 543,
# }


# EXTENSIONS = {
#    "scrapy.extensions.telnet.TelnetConsole": None,
# }


# 持久化配置
# ITEM_PIPELINES = {
#    "maomaofirst_scrapy.pipelines.MaomaofirstScrapyPipeline": 300,
# }


# AUTOTHROTTLE_ENABLED = True

# AUTOTHROTTLE_START_DELAY = 5

# AUTOTHROTTLE_MAX_DELAY = 60


# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# AUTOTHROTTLE_DEBUG = False


# HTTPCACHE_ENABLED = True
# HTTPCACHE_EXPIRATION_SECS = 0
# HTTPCACHE_DIR = "httpcache"
# HTTPCACHE_IGNORE_HTTP_CODES = []
# HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"


REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

6.1 基础配置

#1 了解
BOT_NAME = "firstscrapy"  #项目名字,整个爬虫名字
#2 爬虫存放位置    了解
SPIDER_MODULES = ["firstscrapy.spiders"]
NEWSPIDER_MODULE = "firstscrapy.spiders"

#3  记住 是否遵循爬虫协议,一般都设为False
ROBOTSTXT_OBEY = False
# 4 记住
USER_AGENT = "firstscrapy (+http://www.yourdomain.com)"

#5  记住  日志级别
LOG_LEVEL='ERROR'

#6   记住 DEFAULT_REQUEST_HEADERS 默认请求头
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

#7 记住 后面学  SPIDER_MIDDLEWARES 爬虫中间件
SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}
#8 后面学 DOWNLOADER_MIDDLEWARES  下载中间件
DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

#9 后面学 ITEM_PIPELINES 持久化配置
ITEM_PIPELINES = {
    'cnblogs.pipelines.CnblogsPipeline': 300,
}

6.2 高级配置

#1 增加并发:默认16
默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改
CONCURRENT_REQUESTS = 100
值为100,并发设置成了为100#2 降低日志级别:
在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:
LOG_LEVEL = 'INFO'


# 3 禁止cookie:
如果不是真的需要cookie,则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:
COOKIES_ENABLED = False

# 4 禁止重试:
对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:
RETRY_ENABLED = False

# 5 减少下载超时:
如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:
DOWNLOAD_TIMEOUT = 10 超时时间为10s
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
尚硅谷是一个提供在线教育的学习平台,他们提供了Python爬虫的相关教学课程。通过学习这些课程,你可以获得Python基础知识、前端基础知识、计算机网络基础以及爬虫原理等方面的知识。Python基础教学可以参考B站尚硅谷的教学视频,这些视频可以帮助你建立起对Python的基本认识。而前端基础知识包括HTML、CSS和JavaScript的学习,它们分别代表网页的骨架、肌肉和皮肤,只有结合起来才能形成一个完整的网页。此外,你还可以通过学习计算机网络基础来理解HTTP和HTTPS、URL以及网页请求等内容。爬虫原理也是其中的一部分内容,它可以帮助你了解如何通过爬虫程序获取网页数据。所以,如果你对Python爬虫感兴趣,尚硅谷提供的Python爬虫课程可能是一个不错的选择。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [零基础自学python爬虫笔记Day1——爬虫的基本原理](https://blog.csdn.net/Seyhang/article/details/119420052)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【Python爬虫】urllib库——尚硅谷](https://blog.csdn.net/qq_48108092/article/details/126097408)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值