Java爬虫框框：SeimiCrawler v0.3.0发布

最新推荐文章于 2021-02-27 01:16:57 发布

无忌小伙

最新推荐文章于 2021-02-27 01:16:57 发布

阅读量358

点赞数 1

文章标签： ajax抓取 java爬虫框架 SeimiCrawler seimiagent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhegexiaohuozi/article/details/80122809

版权

Change log

v0.3.0

内置支持SeimiAgent，完美解决动态页面渲染抓取问题
修复自动跳转在某些情况存在的bug

简介

SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。

社区讨论

大家有什么问题或建议现在都可以选择通过下面的邮件列表讨论，首次发言前需先订阅并等待审核通过（主要用来屏蔽广告宣传等）
- 订阅:请发邮件到 seimicrawler+subscribe@googlegroups.com
- 发言:请发邮件到 seimicrawler@googlegroups.com
- 退订:请发邮件至 seimicrawler+unsubscribe@googlegroups.com

更多文档

目前可以参考demo工程中的样例，基本包含了主要的特性用法。更为细致的文档移步SeimiCrawler主页中进一步查看

项目源码

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。