scrapy框架 + MongoDB 实现数据大批量存储

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB
是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

以上一个项目为例 : scrapy框架之crawl spider_zm024212的博客-CSDN博客

首先需要安装好MongoDB数据库以及可视化窗口,建议去官网下载:MongoDB Community Download | MongoDB

然后在python环境中需要安装一个pymongo 模块   打开cmd窗口输入 pip install pymongo 即可

导入模块

import pymongo

# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]

# 只需要修改pipelines.py文件,其他文件不需要改变

from itemadapter import ItemAdapter
import pymongo
# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]


class PigDataPipeline:
    def __init__(self):
        pass

    def open_spider(self, spider):

        pass

    def process_item(self, item, spider):
        # 保存数据到MongoDB数据库
        col.insert_one(dict(item))

        return item

    def close_spider(self, spider):
        self.f.close()

保存完毕,打开MongoDB可视化窗口,可以看到数据保存成功

然后就可以对这些批量大数据进行下一部分析处理,更多爬虫,数据分析,和数据库等知识后续更新

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值