利用scrapy批量下载个人简历

最新推荐文章于 2023-02-23 17:39:24 发布

鱼小洲

最新推荐文章于 2023-02-23 17:39:24 发布

阅读量698

点赞数

分类专栏： python爬虫技术杂谈文章标签： xpath chrome scrapy scrapy批量下载简历 python爬虫

本文链接：https://blog.csdn.net/weixin_43581288/article/details/106897213

版权

技术杂谈同时被 2 个专栏收录

16 篇文章 3 订阅

订阅专栏

python爬虫

4 篇文章 2 订阅

订阅专栏

1、前言

写这个程序和博客的原因，纯粹是出于无聊。上课老师不准我们带耳机，所以就看不了视频，学不了新知识。

所以，正想着马上毕业了，正好也需要个人简历来参加面试，我呢，又不想自己去下载，就只有写个程序来搞他了。

2、前景准备

2.1、工具

pycharm2020.1.1

python3.7

chrome

2.2、用到的工具库

scrapy，requests，os

2.3、实现思路

既然是批量下载，那么就需要每个网页的所有简历的url，我们就可以使用scrapy的yield推送网址解析。

3、步骤实现

3.1、分析网页源码

首先我们打开我们需要爬的网址：个人简历网

当然，这个网址里面的简历模板都是免费的。

然后，熟悉的打开我们的审查工具。瞅瞅我们需要的网址。我这儿用到的工具还有个xpath helper。能够在网页上运行xpath的工具。当然你们也可以不用下载，可以直接手写。

在这里插入图片描述

可以很清楚的看到，我们所有的列表都在这里面。

所以我们写xpath语法的时候就只需要获取ul下的li标签就行。

但是，我们是爬取全部的网页。所以就需要分析下一页。我们再审查一下元素

在这里插入图片描述
我们要是想要跳转下一页，也就是说需要去访问这个href标签的元素就能跳转到下一页了。

所以，开始敲代码。

3.2、源码分析

我们说过，要下载每一个简历，也就是需要去访问这个简历的网址。我们随便打开一个简历看看里面的构造。
在这里插入图片描述

我们可以很清楚的看到，这个下载按钮绑定的是一个href超链接，并且超链接里面的后缀是docx结尾的。

换句话说，我们直接去点击超链接就能直接下载下来。

3.3、代码实现

首先还是新建一个scrapy项目

scrapy startproject grjl
cd grjl
scrapy genspider gerenmuban http://www.gerenjianli.com/moban/

然后开始我们的代码

写之前还是要先配置一下settings.py


BOT_NAME = 'grjl'
SPIDER_MODULES = ['grjl.spiders']
NEWSPIDER_MODULE = 'grjl.spiders'
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 3
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}

因为下载文件的方式使用的requests请求，而不是文件管道，所以，这儿就不用配置pipelines.py文件

直接上源码吧

# -*- coding: utf-8 -*-
import scrapy
import requests
import os
class GerenmubanSpider(scrapy.Spider):
    name = 'gerenmuban'
    allowed_domains = ['http://www.gerenjianli.com/moban/']
    start_urls = ['http://www.gerenjianli.com/moban/']
    def parse(self, response):
        all_hrefs = response.xpath("//ul[@class='prlist']//li//a/@href").getall()
        for url in all_hrefs:
            yield scrapy.Request(url,callback=self.parse_download,dont_filter=True)
        next_page = response.xpath("//div[@class='Listpage']/a[last()-1]/@href").get()
        if next_page:
            yield scrapy.Request(next_page,callback=self.parse,dont_filter=True)
    def parse_download(self,response):
        download_url = response.xpath("//div[@class='donwurl2']/a/@href").get()
        yield scrapy.Request(download_url,callback=self.download,dont_filter=True)
    def download(self,response):
        name = str(response).split("_")[-1].replace(">","")
        url = str(response).split()[-1].replace(">","")
        docx = requests.get(url).content
        save_path = r"E:\PythonLearn\ReptileDemo\scrapyDemo\grjl\save_docx"
        folder = os.path.exists(save_path)
        if not folder:
            os.mkdir(save_path)
        with open(save_path+"\\"+name,"wb") as file:
            file.write(docx)

最后新建一个main文件去启动这个scrapy

from scrapy.cmdline import execute
execute("scrapy crawl gerenmuban".split())

运行效果：在这里插入图片描述

在这里插入图片描述

我们随便打开一个看看：

在这里插入图片描述

ok，就这样完事儿了。

爬虫纯属爱好，不做任何违法请求。

谢谢观看。

鱼小洲

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
利用scrapy批量下载个人简历

1、前言写这个程序和博客的原因，纯粹是出于无聊。上课老师不准我们带耳机，所以就看不了视频，学不了新知识。所以，正想着马上毕业了，正好也需要个人简历来参加面试，我呢，又不想自己去下载，就只有写个程序来搞他了。2、前景准备2.1、工具pycharm2020.1.1python3.7chrome2.2、用到的工具库scrapy，requests，os2.3、实现思路既然是批量下载，那么就需要每个网页的所有简历的url，我们就可以使用scrapy的yield推送网址解析。3、步骤实现3.1
复制链接

扫一扫