![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
gecco
xtuhcy
这个作者很懒,什么都没留下…
展开
-
gecco 1.1.0稳定版发布,易用的轻量化爬虫
gecco 1.1.0稳定版发布了。1.1.0版本主要做了如下修改:1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理2.HttpClientDownloader支持类似12306网站非信任ssl证书3.JsonBean支持嵌套解析4.修复部分网站302无法跳转的bug5.优化debug日志输出 gecco是一款易用的轻量化网络爬虫。十分的容易上手。...2016-04-26 10:02:57 · 138 阅读 · 0 评论 -
java开源爬虫gecco 发布1.0.8版本
gecco 1.0.8 发布了。1.0.8版本主要做了如下修改:GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件4.HttpResponse增加释放raw的方法5....2016-03-30 12:56:18 · 159 阅读 · 0 评论 -
java爬虫gecco的稳定性测试
java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。单线程测试场景爬虫采用单线程,测试时间3×24小时,测试期间系统无异常,jvm内存稳定。测试结果:基本信息 Interval: 5000, Sta...2016-03-28 11:43:23 · 312 阅读 · 0 评论 -
java爬虫gecco监控来了,不再裸奔
java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合redis的插件gecco-redis在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽...2016-03-21 10:52:35 · 542 阅读 · 0 评论 -
java开源爬虫gecco发布版本1.0.6,更灵活的配置downloader
1.0.6Release1、修改request的原始流raw被关闭的bug2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项 @Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline", downloader="...2016-03-15 18:11:03 · 207 阅读 · 0 评论 -
java爬虫gecco支持htmlunit
java爬虫gecco支持htmlunitjava爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的...2016-03-07 10:32:20 · 310 阅读 · 0 评论 -
教您使用java爬虫gecco抓取JD全部商品信息(三)
教您使用java爬虫gecco抓取JD全部商品信息(二)详情页抓取商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com/1861098.html。我们建立商品详情页的Bean:@Gecco(matchUrl="http://item.jd.com/{code}.html", pipelines="conso...2016-02-26 11:18:44 · 167 阅读 · 0 评论 -
教您使用java爬虫gecco抓取JD全部商品信息(二)
教您使用java爬虫gecco抓取JD全部商品信息(一)抓取商品列表信息AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了,可以看到链接的格式是:http://list.jd.com/list.html?cat=9987,653,659&delivery=1&JL=4_10_0&go=0。因此我们建立商品列表的Bean——Produ...2016-02-25 10:56:47 · 227 阅读 · 0 评论 -
教您使用java爬虫gecco抓取JD全部商品信息(一)
教您使用java爬虫gecco抓取JD全部商品信息(一)gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。JD网站的分析要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分...2016-02-24 16:44:58 · 228 阅读 · 0 评论 -
java开源爬虫gecco详细文档新鲜出炉
抽空进行了Gecco爬虫文档的撰写,目录如下: Gecco是什么1. 一分钟你就可以写一个简单爬虫2. 软件总体结构3. 从下载说起4. 抽取页面内容5. 业务逻辑处理 地址:https://xtuhcy.gitbooks.io/geccocrawler/content/index.html...2016-02-19 18:10:01 · 454 阅读 · 0 评论 -
Java主题爬虫Gecco发布1.0.4版本
https://github.com/xtuhcy/gecco主要特征1、简单易用,使用jquery的css selector风格抽取元素2、支持页面中的异步ajax请求3、支持页面中的javascript变量抽取4、利用Redis实现分布式抓取5、支持下载时UserAgent随机选取6、支持下载代理服务器随机选取7、支持结合Spring开发业务逻辑...2016-02-03 10:34:35 · 112 阅读 · 0 评论 -
无头浏览器,从phantomjs到webkit4j
一、从浏览器说起无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。浏览器内核Webkit:目前最主流的浏览器内核,webkit是苹果公司开源的浏览器内核,其前身是KHTML。基于Webkit的浏览器很多,比如Safari,Chrome,OperaGecko:是Firefox浏览器的...2016-10-14 11:09:52 · 343 阅读 · 0 评论 -
教您使用DynamicGecco抓取JD全部商品信息
关于gecco爬虫框架如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用。之前有一篇文章《教您使用java爬虫gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。这里介绍一下DynamicGecco方式,比之前更简单,抓取全部京东商品只要3个类就能搞定了。什么是DynamicGeccoDynamicGe...2016-07-18 11:23:43 · 479 阅读 · 0 评论 -
DynamicGecco实现爬取规则的动态加载
Gecco爬虫框架中的SpiderBeanGecco是一个快速爬虫开发框架,能让开发人员快速的将爬取下来的页面转换为一个简单的java bean。所有的java bean都需要继承同一个接口SpiderBean。根据返回数据格式的不同可以将SpiderBean分成两个子接口——HtmlBean和JsonBean。SpiderBean的定义通常如下:@Gecco(matchUrl="......2016-07-05 11:48:59 · 273 阅读 · 0 评论 -
Gecco爬虫框架的线程和队列模型
简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是gecco爬虫框架的队列和线程模型。线程和队列模型gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列,在非循环模式...2016-06-08 10:29:58 · 213 阅读 · 0 评论 -
Gecco框架典型案例—闲逛APP
Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如何呢?为了让用户放心使用Gecco框架,Gecco团队发布了一款使用Gecco爬虫框架开发的APP——闲逛。这款应用更多的是用来验证Gecco框架的易用性、稳定性、可扩展性。任何脱...2016-05-31 10:01:35 · 246 阅读 · 0 评论 -
gecco 1.0.9 发布,易用的轻量化爬虫
gecco 1.0.9 发布了。1.0.9版本主要做了如下修改:1、@Image注解增加图片自动下载到本地的方法@Image(download="d:/gecco/jd/img")2、GeccoEngine改为线程方式,通过start()支持非阻塞方式运行3、支持debug模式,GeccoEngine.debug(true)4、简化spring项目启动Gecco的方式,详细请查看:ht...2016-04-13 10:40:04 · 188 阅读 · 0 评论