基于Scrapy爬取伯乐在线网站(进阶版)

标题中的英文首字母大写比较规范,但在python实际使用中均为小写。
爬取伯乐在线网站所有文章的详情页面

1.网页持久化

1.1 新建爬虫工程

新建爬虫工程命令:scrapy startproject BoleSave2


10345471-d2bedb87ff4a547f.png
image.png

进入爬虫工程目录命令:cd BoleSave2
新建爬虫文件命令:scrapy genspider save blog.jobbole.com

1.2 编辑save.py文件

网页持久化只需要编辑爬虫文件就可以,下面是save.py文件的代码。
第13行dirName变量的值可以设置网页文件保存的位置,例如:
dirName = "d:/saveWebPage"将网页文件保存在D盘的saveWebPage文件夹中。
可以根据个人情况进行修改,不能将其设置为工程所在文件夹,因为Pycharm对工程内大量新文件进行索引会导致卡顿。

import scrapy
import os
import re

def reFind(pattern,sourceStr,nth=1):
    if len(re.findall(pattern,sourceStr)) >= nth:
        return re.findall(pattern,sourceStr)[nth-1]
    else:
        return 1

def saveWebPage(response,id,prefix):
    # 持久化目录页面
    dirName = "d:/saveWebPage2"
    if not os.path.isdir(dirName):
        os.mkdir(dirName)
    html = response.text
    fileName = "%s%05d.html" %(prefix,id)
    filePath = "%s/%s" %(dirName, fileName)
    with open(filePath, 'w', encoding="utf-8") as file:
        file.write(html)
        print("网页持久化保存为%s文件夹中的%s文件" %(dirName,fileName))

class SaveSpider(scrapy.Spider):
    name = 'save'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        pageNum = response.xpath("//a[@class='page-numbers']/text()")[-1].extract()
        for i in range(1, int(pageNum) + 1):
            url = "http://blog.jobbole.com/all-posts/page/{}/".format(i)
            yield scrapy.Request(url, callback=self.parse1)

    def parse1(self, response):
        page_id = int(reFind("\d+", response.url))
        saveWebPage(response,page_id,'directory')
        #获得详情页面的链接,并调用下一级解析函数
        article_list = response.xpath("//div[@class='post floated-thumb']")
        count = 0
        for article in article_list:
            url = article.xpath("div[@class='post-meta']/p/a[1]/@href").extract_first()
            count += 1
            article_id = (page_id - 1) * 20 + count
            yield scrapy.Request(url,self.parse2,meta={'id':article_id})

    def parse2(self, response):
        saveWebPage(response,response.meta['id'],'detail')

1.3 编辑settings.py文件

改变并发请求数量,取消变量CONCURRENT_REQUESTS的注释,并改变值为96。
CONCURRENT_REQUESTS = 96

1.4 运行结果

运行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
从多个网页的完整或选定内容创建Microsoft Word文档。 此扩展程序将完整的网页或网页的选定部分转换为Microsoft Word文档(docx)。您还可以选择将来自多个网页的内容或仅将其中的选定部分转换为单个Word文档。转换后的文档可以下载到本地磁盘。该扩展读当前页面或所选部分HTML结构,并将其转换为相应的docx结构。限制:-1.安装/更新-安装或更新后,此扩展名不适用于在安装/更新之前打开的标签页,除非重新加载了这些标签页或重新启动了chrome 2.我可以转换什么? -此扩展程序可以将除以下页面之外的任何网页转换为Microsoft Word文档-所有Chrome网上应用店页面(包括此页面) Urls以chrome://开头 chrome:// extensions以chrome-extension://开头的URL。3.某些转换后的页面看起来不一样-所有内容都被转换为Word文档,其中大部分格式保持不变。布局可能会有所不同 4.为什么某些网页保存的文件显示方形框? -对于非英语的网页,尤其会发生这种情况。目前,应用程序不支持所有语言所需的字体转换 5.为什么本地HTML文件不起作用? -出于安全原因,Chrome浏览器不允许扩展名访问File Urls,除非得到用户的明确许可。如果您希望扩展程序适用于本地HTML文件,那么您要做的就是-1.访问扩展程序管理页面(chrome:// extensions) 2.转到“将网页另存为Word文档”扩展名 3.选中“允许访问文件URL”复选框 4.重新加载本地HTML文件。 支持语言:English

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值