python3 scrapy爬取智联招聘存mongodb

最新推荐文章于 2019-10-31 19:22:18 发布

xudailong_blog

最新推荐文章于 2019-10-31 19:22:18 发布

阅读量1.5k

点赞数

分类专栏： # python3爬虫 # scrapy 我的python3爬虫之路文章标签： scrapy python爬虫智联招聘 python岗位 mongodb

本文链接：https://blog.csdn.net/xudailong_blog/article/details/80152268

版权

本文介绍了如何使用scrapy框架爬取智联招聘的Python岗位信息，并将其存储到mongodb数据库中。详细步骤包括scrapy项目创建、spider编写、数据存储到mongodb以及运行和查看爬取结果。

摘要由CSDN通过智能技术生成

写在前面，这次写智联招聘的爬虫是其次，主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目，这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来

（一）scrapy框架的使用

scrapy框架是python爬虫里面一个比较出色的框架，支持分布式，里面内部已经实现了从爬取解析到下载的一条龙服务，用这个框架或者是基于这个框架，可以很大程度上避免了一些不必要的bug，当然前提是你需要懂得并能去使用它。scrapy的简单安装与使用这里就暂时不介绍了，大家可以借助搜索引擎了解一下

（二）创建项目

选好一个适合工作的空间目录，使用命令生成一个scrapy项目，我这选择了E盘
记不住scrapy命令的可以直接在dos输入 scrapy ，然后会给出一些提示的。

命令一：
scrapy startproject zhilianspider

这里是创建是一个工程，我们再创建一个spider，
命令二：
scrapy genspider zhilian "https://m.zhaopin.com/beijing"

（三）pycharm打开工程

尽量像这样子打开，麻烦会少些。马赛克的是我自己创建的，下面会公开的，没有马赛克的是最原始的生成工程的文件。

（四）编写spider

（1）item.py

import scrapy


class ZhilianspiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job_name = scrapy.Field()
    job_link = scrapy.Field()
    job_info = scrapy.Field()
    job_tags = scrapy.Field()

    company = scrapy.Field()
    address = scrapy.Field()
    salary = scrapy.Field()

获取的信息如下：

（2）pipelines.py （数据存入mongodb中）

import pymongo


class ZhilianspiderPipeline(object):
    def __init__(self):
        self.client = pymongo.MongoClient("localhost",connect=False

最低0.47元/天解锁文章

xudailong_blog

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录