简单的java爬虫实现

最新推荐文章于 2024-08-13 03:11:52 发布

zhugeyangyang1994

最新推荐文章于 2024-08-13 03:11:52 发布

阅读量1.6k

点赞数

分类专栏： java爬虫

本文链接：https://blog.csdn.net/zhugeyangyang1994/article/details/50574634

版权

java爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

去年中旬开始接触爬虫一直都是浅显带过期间也写过知乎爬虫和科技网站定向抓取及爬取整个互联网的爬虫

今天和大家分享一下第三个及其实现方式和代码早期的实现想法附代码

关于爬虫其实理论上很简单就是通过互联网上的超链接导航实现页面的调转与抓取互联网的网也因此而来

我也会一步一步的将实现方式和想法展现出来方便大家能够明白每一步要做什么应该怎么做

爬虫可以分为6个部分：

1.下载器 ——实现爬虫的基础

2.链接解析器——获取文档超链接

3.链接队列——负责管理链接（分为两部分 1已经抓取的，2待抓取（实现去重））

4.页面分析器——负责将有用信息剥离出来

5.存储器——将页面信息进行存储（这里为了方便展示选择了生成html文件，同样也可以持久化信息）

6.任务分发器——负责以上模块的协作

1.下载器我们选择了apache提供的httpClient（还有其他一些也不错，自由选择）

package com.search.sprider;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
/**
* @see 爬取网页内容
* @author zhuGe
*
*/
public class Sprider {
public static String get(String url) {
CloseableHttpClient httpClient = HttpClients.createDefault();
// 创建httpget
HttpGet httpGet;
try {
httpGet = new HttpGet(url);
} catch (Exception e1) {
return null;
}
// 设置表头
httpHeader(httpGet);
//设置超时
RequestConfig requestConfig = RequestConfig.custom().setSocketTimeout(2000).setConnectTimeout(2000).build();//设置请求和传输超时时间
httpGet.setConfig(requestConfig);
String download = null;
try {
// 执行get请求.
CloseableHttpResponse response = httpClient.execute(httpGet);
// 获取响应实体
HttpEntity entity = response.getEntity();
// System.out.println(httpGet.getURI());
// // 打印响应状态
// System.out.println(response.getStatusLine());
// System.out.println("--------------------------------------");
/**
* 爬虫
*/
if(entity != null){
if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
download = EntityUtils.toString(entity);
}
}
// if (entity != null) {
// // 打印响应内容长度
// System.out.println("Response content length: " +
// entity.getContentLength());
// 打印响应内容
// System.out.println(download);
} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (IOException e) {
// TODO Auto-generated catch block
new Exception("ioe");
return null;
}finally {
// 关闭连接,释放资源
try {
httpClient.close();
} catch (IOException e) {
e.printStackTrace();
return null;
}
}
return download;
}
//设置表头
public static void httpHeader(HttpGet httpGet){
httpGet.setHeader("Accept", "Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
httpGet.setHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
httpGet.setHeader("Accept-Encoding", "gzip, deflate");
httpGet.setHeader("Accept-Language", "zh-cn,zh;q=0.5");
httpGet.setHeader("Connection", "keep-alive");
// httpGet.setHeader("Cookie", "__utma=226521935.73826752.1323672782.1325068020.1328770420.6;");
// httpGet.setHeader("Host", "www.cnblogs.com");
httpGet.setHeader("refer",
"http://www.baidu.com/s?tn=monline_5_dg&bs=httpclient4+MultiThreadedHttpConnectionManager");
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
// System.out.println("Accept-Charset: " + httpGet.getFirstHeader("Accept-Charset"));
}
}