Python爬虫:多进程爬取网上图片并下载到本地,并将相关信息保存到mongodb数据库中

一.安装环境

1.下载pymongo关键包

.
在这里插入图片描述
在PyCharm菜单栏中,选择File,再选择Settings(如上图)
在这里插入图片描述
选择Project Interpreter,再点击加号(如上图)
在这里插入图片描述
(如上图)静待安装,出现如下图信息即安装成功
在这里插入图片描述
此时你就会在外面看到你安装的包,如下图
在这里插入图片描述
此时引入pymongo包就不会报错了

2.下载安装mongodb

这里就不详细介绍了,网上教程甚多

二.如题

1.首先引入包

import requests, re, json, pymongo
from multiprocessing import Pool
from urllib.parse import urlencode
from hashlib import md5

(1).requests,re,json包是python爬虫的基本包的,pymongo就是刚刚装的mongodb包
(2).第二行是实现多进程的进程池包
(3).第三行是实现将字典直接拼接进url中
(4).第四行实现简单加密

2.封装爬虫类

class JiePaiSpider(object):

(1).连接mongodb数据库

client = pymongo.MongoClient('localhost')
    db = client['jiepai']

db = client[‘xxx’]xxx为你创建的mongodb数据库的名称

(2).构造函数

def __init__(self):
     self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

1.在此函数中放入我们的请求头,用以模仿浏览器访问网站
2.需要注意的是,不能将mongodb数据库的连接请求放在此函数中,否则会报TypeError: can’t pickle _thread.lock objectsde 错,因为进程池不能序列化含有进程锁的对象,而pymango数据库中含有线程锁,所以进程池无法序列化pymango对象

(3)请求列表页的json接口,获取列表页的图片信息

    def get_list_json(self, offset):
        """
        请求列表页的json接口,获取列表页中的图片信息。
        :param offset: 请求接口时的偏移量参数。(0,20,40......)
        :return:
        """
        # https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis
        # 准备接口参数
        params = {
            'offset': offset,
            'format
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值