mongodb删除重复数据的多种方式(脚本实现、文件实现)

方法一:导出文件后,再导入。

最简单的方法:

  1. 将数据导出为JSON格式存档: (cmd中直接运行)
    mongoexport -d database_name -c collection_name -o e:/filename.json 
  2. 清空数据: 
    db.yourcollection.remove({})
  3. 新建唯一索引: 
    db.yourcollection.createIndex({info_link:1}, {unique:true})
  4. 导入之前存档的JSON文件数据: (cmd中直接运行)
    mongoimport -d database_name -c collection_name --upsert e:/filename.json

  5. 参数选项说明:-d 数据库名 -c 集合名 -o 导出后的目录及文件名 --upsert 会根据唯一索引去掉重复记录

方法二:用python脚本去重:

 client = pymongo.MongoClient('localhost:27017')
    db = client['taobao']
    db_test = db['test']
    
    aa = []
    for i in db_test.find():    
        a  =i['a']
        b = i['b']
        product = {'a':a,'b':b}
        if product not in aa:
            aa.append(product)
    bb = (i for i in aa)
    db_test.insert_many(bb,ordered=False,bypass_document_validation=True)
    

方法三:添加唯一索引后,再存入数据,遇到重复的数据,直接通过报错捕获过滤。

 

1新建唯一索引: 
db.yourcollection.createIndex({info_link:1}, {unique:true})

2代码插入数据:

 client = pymongo.MongoClient('localhost:27017')
    db = client['taobao']
    db_test = db['test']
    aa = [{'a':'a',},{'a':'a',},{'a':'a',}]
    bb = (i for i in aa)
    try:
        db_test.insert_many(bb,ordered=False,bypass_document_validation=True)
    except pymongo.errors.BulkWriteError:  # 重复数据无法插入
        print('重复数据过滤掉')
    except Exception as e:
        print('遇到新的报错',e)

 

 

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值