爬虫-HttpClient
OkidoGreen
这个作者很懒,什么都没留下…
展开
-
webmagic的设计机制及原理-如何开发一个Java爬虫
目录[-] webmagic的目标 webmagic的模块划分 Spider类-核心调度 Downloader-页面下载 PageProcessor-页面分析及链接抽取 Jsoup HtmlParser Apache tika HtmlCleaner与XPath 几个工具的对比 webmagic的Selector Scheduler-URL管理 Pipeline-转载 2015-06-25 11:57:12 · 4148 阅读 · 0 评论 -
爬虫简单示例,用httpClient4.2.1实现(转载)
HttpConnectionManager.java package spider; import java.io.BufferedReader; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.InputSt转载 2015-08-26 15:47:21 · 2264 阅读 · 0 评论 -
HttpClient +JSOUP 设置代理 爬虫
package com.fh.job.util; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import com.fh.job.repository.entity.waybill.ProxyVO; import com.google.common.base.Joiner; imp...原创 2017-12-06 15:23:56 · 1476 阅读 · 1 评论