多线程爬虫去重问题

最新推荐文章于 2024-08-18 22:43:10 发布

xiaocxyczh

最新推荐文章于 2024-08-18 22:43:10 发布

阅读量1.4k

点赞数 1

分类专栏：大数据文章标签：爬虫多线程

本文链接：https://blog.csdn.net/xiaocxyczh/article/details/76160299

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近无聊做了一个小爬虫项目，用的是WebCollector框架，比较好上手。但爬取数据后发现有许多重复的，测试了一下是多线程的问题，一开始想到的是在插入MongoDB前判断是否有相同数据存在，但可想而知多线程出现的是问题解决不了的而且效率也很低，然后想到了用CurrentHashMap去重，搞定
首先新建全局属性：

public static ConcurrentHashMap<String,Integer>  concurrenthashMap = new ConcurrentHashMap<String, Integer>();

数据持久化代码如下：

synchronized (this){
                 if(concurrenthashMap.get(title) == null)
                 {
                     concurrenthashMap.put(title, 1);//value值不重要的话随便定义都可以
                     MongoDBConn.insertSight(title, address, num, url);
                 }
            }