HttpClient +JSOUP 设置代理 爬虫

package com.fh.job.util; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import com.fh.job.repository.entity.waybill...

2017-12-06 15:23:56

阅读数 570

评论数 1

爬虫简单示例,用httpClient4.2.1实现(转载)

HttpConnectionManager.java package spider; import java.io.BufferedReader; import java.io.ByteArrayOutputStream; import java.io.IOException; import ...

2015-08-26 15:47:21

阅读数 1650

评论数 0

webmagic的设计机制及原理-如何开发一个Java爬虫

目录[-] webmagic的目标 webmagic的模块划分 Spider类-核心调度 Downloader-页面下载 PageProcessor-页面分析及链接抽取 Jsoup HtmlParser Apache tika HtmlCleaner与XPath 几个工...

2015-06-25 11:57:12

阅读数 3479

评论数 0

提示
确定要删除当前文章?
取消 删除