-
爬虫想把爬取的数据存入到
mongoDB
中, 这时候经常遇到的一个需求就是插入的数据已经存在数据库中, 因此插入前去重就是一个经常性的课题. -
我的想法是:
- 如果数据库中已经存在这个数据, 那么就什么也不操作
- 如果数据不存在, 则插入这个数据
-
为了实现这个想法, 查了很多文献, 发现使用
update
可以实现 -
下面就是我测试的代码
# 首先在数据中插入一条数据
document = {
'p_id': 'f75046d73a0c4bf88f0b7342e60722c4',
'c_name': 'Ken',
'c_star': '5.0',
'bought': None,
'c_time': '2017年3月23日',
'c_userful': 13,
'c_comment': ['4歳になるトイプードル用に購入。', '今までエサは床に食器直置きで与えていましたが、食後にむせていることがたびたび目撃されたので', '「もしかして食べづらいのでは?」と思い調べてみたところ、この商品にたどり着きました。', '足が長いので食事中は頭が完全に下に向いており、胃や足腰に負担がかかっていたと思われます。'],
'gmt_create': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
}
collection.insert(document)
- 通过
mongoDB
可视化工具查看数据库,发现数据已经存在