爬虫框架汇总

最新推荐文章于 2024-05-04 16:16:44 发布

xxxknight

最新推荐文章于 2024-05-04 16:16:44 发布

阅读量765

点赞数

分类专栏：爬虫文章标签：爬虫

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

开源爬虫汇总表
开发语言软件名称软件介绍许可证
Java Arachnid 微型爬虫框架，含有一个小型HTML解析器 GPL
crawlzilla 安装简易，拥有中文分词功能 Apache2
Ex-Crawler 由守护进程执行，使用数据库存储网页信息 GPLv3
Heritrix 严格遵照robots文件的排除指示和META robots标签 LGPL
heyDr 轻量级开源多线程垂直检索爬虫框架 GPLv3
ItSucks 提供swing GUI操作界面不详
jcrawl 轻量、性能优良，可以从网页抓取各种类型的文件 Apache
JSpider 功能强大，容易扩展 LGPL
Leopdo 包括全文和分类垂直搜索，以及分词系统 Apache
MetaSeeker 网页抓取、信息提取、数据抽取工具包，操作简单不详
Playfish 通过XML配置文件实现高度可定制性与可扩展性 MIT
Spiderman 灵活、扩展性强，微内核+插件式架构，通过简单的配置就可以完成数据抓取，无需编写一句代码 Apache
webmagic 功能覆盖整个爬虫生命周期，使用Xpath和正则表达式进行链接和内容的提取 Apache
Web-Harvest 运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作，具有可视化的界面 BSD
WebSPHINX 由两部分组成：爬虫工作平台和WebSPHINX类包 Apache
YaCy 基于P2P的分布式Web搜索引擎 GPL
Python QuickRecon 具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能 GPLv3
PyRailgun 简洁、轻量、高效的网页抓取框架 MIT
Scrapy 基于Twisted的异步处理框架，文档齐全 BSD
C++ hispider 支持多机分布式下载, 支持网站定向下载 BSD
larbin 高性能的爬虫软件，只负责抓取不负责解析 GPL
Methabot 经过速度优化、可抓取WEB、FTP及本地文件系统不详
Methanol 模块化、可定制的网页爬虫，速度快不详
C# NWebCrawler 统计信息、执行过程可视化 GPLv2
Sinawler 国内第一个针对微博数据的爬虫程序，功能强大 GPLv3
spidernet 以递归树为模型的多线程web爬虫程序，支持以GBK (gb2312)和utf8编码的资源，使用sqlite存储数据 MIT
Web Crawler 多线程，支持抓取PDF/DOC/EXCEL等文档来源 LGPL
网络矿工功能丰富，毫不逊色于商业软件 BSD
PHP OpenWebSpider 开源多线程网络爬虫，有许多有趣的功能不详
PhpDig 适用于专业化强、层次更深的个性化搜索引擎 GPL
Snoopy 具有采集网页内容、提交表单功能 GPL
ThinkUp 采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现 GPL
微购可采集淘宝、京东、当当等300多家电子商务数据 GPL
ErLang Ebot 可伸缩的分布式网页爬虫 GPLv3
Ruby Spidr 可将一个或多个网站、某个链接完全抓取到本地 MIT

其他 selenium

xxxknight

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫框架汇总

开源爬虫汇总表开发语言软件名称软件介绍许可证 Java Arachnid 微型爬虫框架，含有一个小型HTML解析器 GPL crawlzilla 安装简易，拥有中文分词功能 Apache2 Ex-Crawler 由守护进程执行，使用数据库存储网页信息 GPLv3 Heritrix
复制链接

扫一扫

专栏目录