写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来
(一)scrapy框架的使用
scrapy框架是python爬虫里面一个比较出色的框架,支持分布式,里面内部已经实现了从爬取解析到下载的一条龙服务,用这个框架或者是基于这个框架,可以很大程度上避免了一些不必要的bug,当然前提是你需要懂得并能去使用它。scrapy的简单安装与使用这里就暂时不介绍了,大家可以借助搜索引擎了解一下
(二) 创建项目
选好一个适合工作的空间目录,使用命令生成一个scrapy项目,我这选择了E盘
记不住scrapy命令的可以直接在dos输入 scrapy
,然后会给出一些提示的。
命令一:
scrapy startproject zhilianspider
这里是创建是一个工程,我们再创建一个spider,
命令二:
scrapy genspider zhilian "https://m.zhaopin.com/beijing"
(三)pycharm打开工程
尽量像这样子打开,麻烦会少些。马赛克的是我自己创建的,下面会公开的,没有马赛克的是最原始的生成工程的文件。
(四)编写spider
(1)item.py
import scrapy
class ZhilianspiderItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
job_name = scrapy.Field()
job_link = scrapy.Field()
job_info = scrapy.Field()
job_tags = scrapy.Field()
company = scrapy.Field()
address = scrapy.Field()
salary = scrapy.Field()
获取的信息如下:
(2)pipelines.py (数据存入mongodb中)
import pymongo
class ZhilianspiderPipeline(object):
def __init__(self):
self.client = pymongo.MongoClient("localhost",connect=False