python读取mongodb bson.gz文件

本文介绍如何使用Python的pymongo和bson库解析BSON压缩文件,并提供load_mongo_bson_gz_file_all和load_mongo_bson_gz_file_iter函数实现数据的逐条或全部加载。涉及的关键技术包括文件检查、gzip解压和数据迭代处理。
摘要由CSDN通过智能技术生成

需要用到 bson 库 (bson 是 pymongo 的依赖库,安装 pymongo 即可 )安装命令

pip install pymongo
import bson
import gzip
import re
import pandas as pd
from pandas import DataFrame

def load_mongo_bson_gz_file_all( path ):
    """
    if path mongo dump file  *.bson.gz  else raise Exception
    """
    if re.search( 'bson\.gz$', path ):
        with gzip.open(path, 'rb') as fp:
            data = bson.decode_all( fp.read() )
    else:
        raise Exception('Not mongo bson file!')
    return data


def load_mongo_bson_gz_file_iter(path, size =5000):
    """
    每次返回 5000 条 数据的数据迭代器
    5000 per time data iter
    """
    result = []
    if re.search( 'bson\.gz$', path ):
        with gzip.open( path, 'rb' ) as fp:
            bson_file_iter = bson.decode_file_iter(fp)
            while 1:
                result.clear()
                for i in range( size ):
                    try:
                        data = next( bson_file_iter )
                        result.append(data)
                    except StopIteration:
                        yield result
                        return
                yield result
    else:
        raise Exception('Not mongo bson file!')

def _read_mongo_bson_gz_file_iter( path ):
    for data in  load_mongo_bson_gz_file_iter( path ) :
        yield DataFrame( data )
def _read_mongo_bson_gz_file( path ):
    return DataFrame( data= load_mongo_bson_gz_file_all( path ) )

pd.read_mongo_iter = _read_mongo_bson_gz_file_iter
pd.read_mongo = _read_mongo_bson_gz_file
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值