python爬虫中的mongo实践

最新推荐文章于 2024-07-03 02:51:10 发布

花罚

最新推荐文章于 2024-07-03 02:51:10 发布

阅读量2.1k

点赞数 1

分类专栏：爬虫 Python MongoDB 文章标签： python mongodb gridfs 爬虫文件

本文链接：https://blog.csdn.net/wuzuodingfeng/article/details/54601238

版权

本文讲述了如何使用Python爬虫获取全本小说网的小说封面，并将其存储到MongoDB的GridFS中，同时记录小说信息。通过requests获取图片二进制数据，利用pymongo操作MongoDB，实现数据与文件的存储。总结了pymongo的简单使用方法，包括Client、Database、GridFS的使用，并提及了处理中文乱码的问题。

摘要由CSDN通过智能技术生成

目标

获取全本小说网的小说封面
保存封面图片到mongo数据库中
记录封面图片对应的小说信息

分析

本次使用requests作为http请求工具
获取小说封面的方式采用爬虫分类型、分页爬去小说封面地址
向图片的原地址发送http的get请求，获取response的content就是图片的二进制数据了
本次存储图片的方式并采用系统自带的文件系统，而是使用mongodb的GridFS
将步骤3中的content数据put到gridfs中获取文件id
从步骤2中获取小说的名称等信息，与步骤5中的id做映射，保存到novel集合集中
注：步骤6在是可以将小说的其他信息一同保存至gridfs的files集合中的，使用方法会在代码中进行注释

示例

import requests
from bs4 import BeautifulSoup
import pymongo
import gridfs
import time

# 获取mongoClient对象
client = pymongo.MongoClient("localhost", 27017)
# 获取使用的database对象
db = client.test
# 获取图片存储集合
fs = gridfs.GridFS(db, "images")


def save_pic_to_disk():
    """
    将数据库中文件转存到本地文件系统
    :return: 无
    """
    fss = fs.find()
    for fl in fss:
        print(fl.md5)
        tp_file = open('d:/img/' + fl.md5 + '.jpg',