一、前言
目前市场上爬虫框架有很多,不同语言不同类型的爬虫框架都有,然而在开发预研的时候对于选择那种
框架对于很多开发者来说尤为头疼;
本篇主要总结一下市场上主流的开发语言中有哪些主流的爬虫框架,以及爬虫框架的优劣;希望在对你在选择合适爬虫框架中有所帮助。
二、主流语言爬虫框架列表
常用爬虫框架列表
C# | Java | PYTHON | PHP | C/C++ |
---|---|---|---|---|
DotnetSpider | Apache Nutch2 | scrapy | phpspider | open-source-search-engine |
NWebCrawler | webmagic | Crawley | Beanbun | Cobweb |
SmartSpider | Heritrix | Portia | PHPCrawl | upton |
Abot | WebCollector | PySpider | php selenium | wombat |
xNet | crawler4j | grab | Spidr | |
AngleSharp | Spiderman | cola | Larbin | |
HtmlAgilityPack | SeimiCrawler | python selenium | ||
CSQuery | java selenium | |||
三、主流爬虫框架简介
DotnetSpider爬虫框架:
DotnetSpider 至力于打造一个轻量化、高效率、易开发、可管理的一体化爬虫框架。它的核心要素是URL调度、基本的网页内容下载器、基于爬虫实体类的爬虫实现模式、常用数据库的支持、多线程的支持、状态的监控、运行日志、网页端管理。
DotnetSpider 具有相当高的可定制性,支持包括 MSSQL、MySQL、PostgreSQL、MongoDB 在内的多种数据库,文档(目录?)齐全,样例丰富、通俗易懂,同时还自带了 Web Manager(依赖于作者的另一个项目 Scheduler.NET)
项目:https://github.com/dotnetcore/DotnetSpider
Web Manager:https://github.com/zlzforever/DotnetSpider.Hub
Scheduler.NET:https://github.com/zlzforever/Scheduler.NET
授权:GPL-3.0
Wiki:https://github.com/dotnetcore/DotnetSpider/wiki
作者:Zlzforever
GitHub:https://github.com/zlzforever
QQ群:477731655
DotnetSpider 自加入 NCC 起始终坚持不懈的更新、完善,作者帅气、为人风趣幽默;项目日趋成熟、追求完美,于 2018 年 5 月下旬成为 NCC 第三个星数破千的项目,值得祝贺。为此,经 NCC 授权,由 AlexLEWIS 赠送 DotnetSpider 作者 Zlzforever 先生图书一本。所以在.Net下通过使用上述框架可以快速完成爬虫程序的开发。