爬虫过程中,判断MongoDB中的数据是否有重复的方法

links = []
for i in db_news.find():
    link = i['info_link']
    links.append(link)
   
print(len(links))
print(len(set(links)))

在python脚本中进行如上代码测试。

先把数据库中把所有的info_link 放到links里面,再看这个list里的数量,以及集合里的数量。

如下:

>>> a = ['1','2','1']
>>> print(len(a))
3
>>> print(len(set(a)))
2
>>>

如果两个数值不相等,则说明是有重复的数据,不然则是不重复的。

展开阅读全文

没有更多推荐了,返回首页