![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
源码阅读
文章平均质量分 82
wsrspirit
靠谱就写在我脸上
展开
-
[源码学习][知了开发]WebMagic四大组件-Scheduler
写在前面先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了,Scheduler主要负责爬虫的下一步爬取的规划,包括一些去重等功能。在主流程中也看到了Scheduler,现在来具体结合源码分析原创 2016-07-24 16:44:22 · 2888 阅读 · 0 评论 -
[源码学习][知了开发]WebMagic四大组件-Downloader,Pipeline,PageProcesser
写在前面关于WebMagic这应该是最后一篇博文了,这一篇相对也简单一些Pipeline & PageProcesser这两部分是应该程序员自己实现的部分,因为PageProcesser关乎如何解析页面而Pipeline则是存储,推荐使用OOSpider也就是注解式编程。Downloaderpublic interface Downloader { /** * Downloads w原创 2016-07-25 11:16:03 · 2263 阅读 · 0 评论 -
[源码学习][知了开发]WebMagic-CountableThreadPool&SpiderMonitor
写在前面今天继续来看WebMagic,先放过四大组件以及三个包装,我们看看边边角角的东西,也算是对Spider的一个补充Spider剩下的CountableThreadPool在上一篇的Spider中我们一定注意到了threadpool这个变量,这个变量是Spider中的线程池,具体代码public class CountableThreadPool { private int threadN原创 2016-07-19 10:18:14 · 2397 阅读 · 0 评论 -
[源码学习][知了开发]WebMagic-总体流程源码分析
写在前面前一段时间开发【知了】用到了很多技术(可以看我前面的博文http://blog.csdn.net/wsrspirit/article/details/51751568),这段时间抽空把这些整理一下,WebMagic是一个Java的爬虫,中国人写的,代码很模块化,也很利于二次开发,但是我们在使用的过程中也遇到了一些问题,这些问题我会在最后的博客中介绍,最近的博客将详细的走一下WebMagic的原创 2016-07-18 18:10:35 · 5574 阅读 · 1 评论 -
[源码学习][知了开发]WebMagic-OOSpider
写在前面之前两篇博客基本上讲完了Spider,四大组件还有三个包装类没有讲,这篇博客讲讲一下OOSpider,也是对Spider的一个补充,但是我觉得OOSpider是WebMagic的一个很强大的功能,提供了注解的爬虫,官网地址: http://webmagic.io/docs/zh/posts/ch5-annotation/README.html例子先看一下怎么使用注解编写爬虫原创 2016-07-21 09:35:07 · 5791 阅读 · 0 评论 -
SpringExt 源码学习
大致了解SpringExtSpring Schema提供了我们便捷的初始化bean的方法,我们不需要再去写构造器注入或者属性注入直接使用类似的如下配置代码即可完成bean的初始化<resource-loading id="resourceLoadingService" xmlns="http://www.alibaba.com/schema/services/resour原创 2016-08-16 15:20:22 · 1378 阅读 · 0 评论 -
Webx RPC 内部重定向的bug
重定向是由RequestContext提供的一项功能,需要在webx.xml中配置<rule pattern="^/****/docs/(\w+)"> <substitution uri="http://**** flags="L,R"> </substitution></rule>其中去过去掉flags中的R将会是内部重定向,而不是302外部重定向。但是我们在实际的使用过程中发原创 2016-08-18 21:27:30 · 1233 阅读 · 0 评论 -
Webx的执行流程
Webx的总体流程 WebxFrameworkFilter->AbstractWebxRootController->WebxRootControllerImpl->WebxControllerImpl->Pipeline具体执行流程Webx的主要流程,由于Webx是基于Servlet的Filter开发的 Request Contexts服务该服务负责访问和修改request和response原创 2016-08-18 21:25:43 · 2733 阅读 · 0 评论 -
结合Spring IOC 看Webx & HSF & Spring MVC
写在前面Spring IOC这个部分还是很难的,我基本有了一年多的使用经验才慢慢开始看源码,但都是头大无比,一定要静下心慢慢看,就像一杯苦茶,越品越有味道!Webx是阿里开源的web框架: http://www.openwebx.org/docs/Webx3_Guide_Book.html HSF是阿里的IOC大致流程IOC容器的两个最主要的两个接口BeanFactory和Application原创 2016-08-12 22:19:35 · 2322 阅读 · 0 评论