爬虫
文章平均质量分 56
zhlei12345
这个作者很懒,什么都没留下…
展开
-
httpclient -- InternalHttpClient解析
1.doExecute(final HttpHost target, \qquad final HttpRequest request, \qquad final HttpContext context) 主要步骤: 1.final HttpRequestWrapper wrapper = HttpRequ原创 2017-05-26 13:48:19 · 3969 阅读 · 0 评论 -
Java URL 类,URI类
1.若引用的资源和本身在同一路径下(既在同一目录下) 在example.html中引用tupian.gif 相对路径:<imgsrc="tupian.gif"border="0"/><img \quad src="tupian.gif" border="0"/> 绝对路径:<imgsrc="d:/例子/html/tupian.gif"border="0"/><img \quad sr转载 2017-06-15 09:58:51 · 716 阅读 · 0 评论 -
Http隧道(tunnel)技术与Proxy
一直都没有深入研究过 Http Proxy,最近在使用libcurl的过程中,发现在有Proxy的情况下,使用CURL请求一个https的资源,会有返回2个response。经过一番抓包和研究之后,发现另有原因。根据 RFC2817 的讲解发现,在使用Proxy请求https的时候,首先会使用HTTP的CONNECT Method向Proxy发起请求。另外,更具 RFC2816 中关于CONNECT转载 2017-06-12 13:40:42 · 3472 阅读 · 1 评论 -
webMagic 全面剖析(更新中。。。)
\qquad WebMagic爬虫主要由Downloader,PageProcessor,Pipelines,scheduler四个主要的部分构成。总调度类为Spider,主要负责请求任务分发,控制多个线程同时对多个网页进行下载,解析,存储。本文会针对这五个部分进行详细的代码剖析。1.Downloader1.1 Downloader接口public interface Downloader {原创 2017-05-24 13:41:50 · 4969 阅读 · 0 评论 -
HttpClient 4.5.3 模拟登陆CSDN
本文使用httpcomponents-client-4.5.3和httpcomponents-core-4.4.6进行CSDN模拟登陆。//step 1:get some necessary information about login HttpClientBuilder httpClientBuilder2=HttpClients.custom(); httpCl原创 2017-06-14 10:37:19 · 2055 阅读 · 0 评论 -
httpclient -- HttpClientBuilder(长期更新。。。)
1.httpclientBuilder 域 1.1 PublicSuffixMatcher 用于检查给出的域名是否和public suffix list中的后缀匹配。 1.2 HttpRequestExecutor 1.3 HttpClientConnectionManager http连接管理 1.4 ConnectionReuseStrategy 连接重用策略 1.5 Con原创 2017-06-06 17:43:49 · 17327 阅读 · 1 评论