一想到做爬虫大家第一个想到的语言一定是python,毕竟python比方便,而且最近也非常的火爆,但是python有一个全局锁的概念新能有瓶颈,所以用java还是比较牛逼的,
各类JAVA爬虫框架
Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架)。 除了Python,Java中也有许多爬虫框架。
- nutch
apache下的开源爬虫程序,功能丰富,文档完整,有数据抓取解析以及存储的模块。 它的特点是规模大。
- heritrix
比较成熟 地址:internetarchive/heritrix3 · GitHub很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。
- crawler4j
UCI大学(加利福尼亚欧文分校)出品,简洁,古老,结构清晰
- webmagic
国产,借鉴了scrapy,有pipeline,功能比较简单。Request也有meta属性,meta属性是一个字典,meta属性的value是Object类型
具体参考 https://www.cnblogs.com/weiyinfu/p/8099605.html
使用问题
- 下载maven依赖