分布式爬虫:Nutch,主要依赖Hadoop,存储于Mysql,Hbase,Hdfs等。 单机爬虫:Crawler4j、WebMagic、WebCollector WebMagic ,若分布式,需要集成插件webmagic-extension,通过redis来存储URL。 webmagic的使用文档: