最近无聊做了一个小爬虫项目,用的是WebCollector框架,比较好上手。但爬取数据后发现有许多重复的,测试了一下是多线程的问题,一开始想到的是在插入MongoDB前判断是否有相同数据存在,但可想而知多线程出现的是问题解决不了的而且效率也很低,然后想到了用CurrentHashMap去重,搞定
首先新建全局属性:
public static ConcurrentHashMap<String,Integer> concurrenthashMap = new ConcurrentHashMap<String, Integer>();
数据持久化代码如下:
synchronized (this){
if(concurrenthashMap.get(title) == null)
{
concurrenthashMap.put(title, 1);//value值不重要的话随便定义都可以
MongoDBConn.insertSight(title, address, num, url);
}
}