- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 Java爬虫框架SeimiCrawler V2.0升级来袭
主要变动完美支持SpringBoot,可以尽情的集成SpringBoot现有生态,demo参考回调函数支持方法引用,设置起来更自然 push(Request.build(s.toString(),Basic::getTitle));非SpringBoot模式全局配置项通过SeimiConfig进行配置,包括 Redis集群信息,SeimiAgent信息等,SpringB...
2018-06-26 08:46:05 1305
原创 SeimiAgent使用--通过js控制以浏览器级效果登录爬取京东信息
声明本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力,目标网站随意选的,并没有其他目的。SeimiAgent简介SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等...
2016-08-07 08:36:37 310
原创 SeimiCrawler v1.2.0发布,Java爬虫框架
变更日志v1.2.0OkhttpDownloader支持处理contentType头中没有指定编码的中文页面支持通过@Crawler注解中的httpTimeOut属性自定义http请求的超时时间,默认15000msv1.1.0可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求SemiQueue实现按需加载...
2016-07-22 07:54:59 165
原创 SeimiCrawler v1.1.0发布,Java爬虫框架
变更日志v1.1.0可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求SemiQueue实现按需加载修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题v1.0.0http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apach...
2016-07-07 08:14:41 205
原创 Java爬虫框架:SeimiCrawler v1.0.0发布
变更日志v1.0.0http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient部分代码优化支持通过seimiAgent获取页面快照(png/pdf)简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,...
2016-06-29 08:07:34 183
原创 SeimiAgent——基于QtWebkit的通用网页渲染代理服务
SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...
2016-04-16 11:47:19 272
原创 SeimiAgent——基于QtWebkit的通用网页加载渲染代理服务
SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...
2016-04-16 11:45:47 355
原创 Java爬虫框框:SeimiCrawler v0.3.0发布
Change logv0.3.0内置支持SeimiAgent,完美解决动态页面渲染抓取问题修复自动跳转在某些情况存在的bug简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余...
2016-04-16 10:32:29 352
原创 SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题
前言曾几何时,动态页面(ajax,内部js二次渲染等等)信息提取一直都是爬虫开发者的心痛点,一句话,实在没有合适的工具。尤其在Java里面,像htmlunit这种工具都算得上解析动态页面的神器了,但是他依然不够完备,达不到浏览器级的解析效果,遇到稍微复杂点的页面就不行了。在经历的各种痛与恨后,笔者决定干脆开发一款专为应对抓取,监控,以及测试这类场景使用的动态页面渲染处理服务器。要达到浏览器级的效果...
2016-04-16 10:26:36 1868 1
原创 Java爬虫框架:SeimiCrawler v0.2.7发布
Change logv0.2.7内嵌http接口在可以接收单个Json形式Request基础上增加支持接收Json数组形式的多个RequestRequest对象支持设置skipDuplicateFilter用来告诉seimi处理器跳过去重机制,默认不跳过增加定时调度使用Demo回调函数通过Request传递自定义参数值类型由Object改为String,方便明确处理Fix:修复一个打日志...
2016-01-23 11:18:16 252
原创 Java爬虫框架——SeimiCrawler
SeimiCrawlerAn agile,powerful,standalone,distributed crawler framework.SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。简介SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发...
2016-01-05 01:24:36 972
非常好用的ASP本地调试工具
2010-09-20
ExtJS实用开发指南
2010-07-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人