自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 Java爬虫框架SeimiCrawler V2.0升级来袭

主要变动完美支持SpringBoot,可以尽情的集成SpringBoot现有生态,demo参考回调函数支持方法引用,设置起来更自然 push(Request.build(s.toString(),Basic::getTitle));非SpringBoot模式全局配置项通过SeimiConfig进行配置,包括 Redis集群信息,SeimiAgent信息等,SpringB...

2018-06-26 08:46:05 1305

原创 SeimiAgent使用--通过js控制以浏览器级效果登录爬取京东信息

声明本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力,目标网站随意选的,并没有其他目的。SeimiAgent简介SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等...

2016-08-07 08:36:37 310

原创 SeimiCrawler v1.2.0发布,Java爬虫框架

变更日志v1.2.0OkhttpDownloader支持处理contentType头中没有指定编码的中文页面支持通过@Crawler注解中的httpTimeOut属性自定义http请求的超时时间,默认15000msv1.1.0可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求SemiQueue实现按需加载...

2016-07-22 07:54:59 165

原创 SeimiCrawler v1.1.0发布,Java爬虫框架

变更日志v1.1.0可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求SemiQueue实现按需加载修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题v1.0.0http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apach...

2016-07-07 08:14:41 205

原创 Java爬虫框架:SeimiCrawler v1.0.0发布

变更日志v1.0.0http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient部分代码优化支持通过seimiAgent获取页面快照(png/pdf)简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,...

2016-06-29 08:07:34 183

原创 SeimiAgent——基于QtWebkit的通用网页渲染代理服务

SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...

2016-04-16 11:47:19 272

原创 SeimiAgent——基于QtWebkit的通用网页加载渲染代理服务

SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...

2016-04-16 11:45:47 355

原创 Java爬虫框框:SeimiCrawler v0.3.0发布

Change logv0.3.0内置支持SeimiAgent,完美解决动态页面渲染抓取问题修复自动跳转在某些情况存在的bug简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余...

2016-04-16 10:32:29 352

原创 SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题

前言曾几何时,动态页面(ajax,内部js二次渲染等等)信息提取一直都是爬虫开发者的心痛点,一句话,实在没有合适的工具。尤其在Java里面,像htmlunit这种工具都算得上解析动态页面的神器了,但是他依然不够完备,达不到浏览器级的解析效果,遇到稍微复杂点的页面就不行了。在经历的各种痛与恨后,笔者决定干脆开发一款专为应对抓取,监控,以及测试这类场景使用的动态页面渲染处理服务器。要达到浏览器级的效果...

2016-04-16 10:26:36 1868 1

原创 Java爬虫框架:SeimiCrawler v0.2.7发布

Change logv0.2.7内嵌http接口在可以接收单个Json形式Request基础上增加支持接收Json数组形式的多个RequestRequest对象支持设置skipDuplicateFilter用来告诉seimi处理器跳过去重机制,默认不跳过增加定时调度使用Demo回调函数通过Request传递自定义参数值类型由Object改为String,方便明确处理Fix:修复一个打日志...

2016-01-23 11:18:16 252

原创 Java爬虫框架——SeimiCrawler

SeimiCrawlerAn agile,powerful,standalone,distributed crawler framework.SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。简介SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发...

2016-01-05 01:24:36 972

ubuntu U盘安装盘制作工具

ubuntu的 U盘安装盘制作工具,简单,好用,稳定,安全

2014-07-07

Ic卡破解工具

读取IC卡数据,破解IC卡,复制IC卡,========

2014-07-07

腾讯2010实习生笔试题-现场拍的

腾讯2010实习生笔试题-现场拍的,绝对真实,绝对超值!!

2011-04-09

Javascript基础教程与实例

以通俗易懂的方式让你对Javascript快速入门,快速入手

2010-11-05

非常好用的ASP本地调试工具

ASP本地调试工具,超级好用的! 如果遇到MD5加密文件(一般都是这个),而又不知道密码的,请用这组加密的数据447cbfad670fb82d替换,那么密码就是:cnzz.cc (这个是16位的,32位的 :ccbba0e4447cbfad670fb82dded78dc9) 【版权声明】 本软体为共享软体(Shareware)提供个人网站免费使用; 为适应实际的应用环境可进行必要的修改; 使用该软件必须保留相关作者的版权声明。

2010-09-20

ExtJS实用开发指南

ExtJS 是一个很不错的 Ajax 框架,可以用来开发带有华丽外观的富客户端应用,使得我们的 b/s 应用更加具有活力及生命力。ExtJS 是一个用 javascript 编写,与后台技术无关的前端 ajax 框架。因此,可以把 ExtJS 用在.Net、Java、Php 等各种开发语言开发的应用中。最近我们在几个应用都使用到了 ExtJS,对公司以前开发的一个 OA 系统也正在使用 ExtJS2.0 进行改造,使得整个系统在用户体验上有了非常大的变化。 本教程记录了前段时间笔者学习 ExtJS 的一些心得及小结,希望能帮助正在学习或准备学习 ExtJS 的朋友们快速走进 ExtJS2.0 的精彩世界。教程包括 ExtJS 的新手入门、组件体系结构及使用、ExtJS 中各控件的使用方法及示例应用等,是一个非常适合新手的 ExtJS 入门教程。本教程主要是针对 ExtJS2.0 进行介绍,全部代码、截图等都是基于 ExtJS2.0。

2010-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除