一、使用HttpClient
HttpClient是一种简单的捕获html页面的工具包,现已不再维护,已经被Apache 的HttpComponents替代了,缺陷就是获取不到js获取到的动态数据,从而使得爬取的数据缺失。
- 1、导入依赖
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.8</version>
</dependency>
- 2、实现代码
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class HttpClientTest {
/**
* 获取html页面内容
* @param url 链接地址
* @return
*/
public static String getHtmlByHttpClient(String url) {
//1.生成httpclient,相当于该打开一个浏览器
CloseableHttpClient httpClient = HttpClients.createDefault();
CloseableHttpResponse response = null;
//2.创建get请求,相当于在浏览器地址栏输入 网址
HttpGet request = new HttpGet(url);
try {
//3.执行get请求,相当于在输入地址栏后敲回车键
response = httpClient.execute(request);
//4.判断响应状态为200,进行处理
if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
//5.获取响应内容
HttpEntity httpEntity = response.getEntity();
String html = EntityUtils.toString(httpEntity, "utf-8");
return html;
} else {
//如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略
System.out.println("返回状态不是200");
System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
//6.关闭
HttpClientUtils.closeQuietly(response);
HttpClientUtils.closeQuietly(httpClient);
}
}
}
二、使用HtmlUnit
HtmlUnit可以用来模拟浏览器运行,可以把它当作一个没有界面的浏览器,也就是用代码模拟鼠标等操作来操作网页,运行速度快。
HtmlUnit是一款开源的java 页面分析工具,作为junit的扩展之一,可以模拟js运行
->使用htmlUnit捕获百度搜索页面
通过htmlUnit操作百度高级搜索界面最终捕获搜索结果的html页面内容
- 1、导入依赖
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.23</version>
</dependency>
- 2、代码实例
public static String Baidu(String keyword)throws Exception{
WebClient webclient = new WebClient();
//ssl认证
//webclient.getOptions().setUseInsecureSSL(true);
//由于有的网页js书写不规范htmlunit会报错,所以去除这种错误让程序执行完全(不影响结果)
webclient.getOptions().setThrowExceptionOnScriptError(false);
webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
//不加载css
webclient.getOptions().setCssEnabled(false);
//由于是动态网页所以一定要加载js及执行
webclient.getOptions().setJavaScriptEnabled(true);
//打开百度高级搜索的网址
HtmlPage htmlpage = webclient.getPage("http://www.baidu.com/gaoji/advanced.html");
//获取网页from控件(f1为控件name)
HtmlForm form = htmlpage.getFormByName("f1");
HtmlSubmitInput button = form.getInputByValue("百度一下");
HtmlTextInput textField = form.getInputByName("q1");
textField.setValueAttribute(keyword);
final HtmlSelect htmlSelet=form.getSelectByName("rn");
htmlSelet.setDefaultValue("10");
//隐藏值
final HtmlHiddenInput hiddenInputtn = form.getInputByName("tn");
hiddenInputtn.setDefaultValue("baiduadv");
//发送请求(相当于点击百度一下按钮)获取返回后的网页
final HtmlPage page = button.click();
//获取网页的文本信息
String result = page.asText();
//获取网页源码
//String result = page.asXml();
//System.out.println(result);
webclient.close();
return result;
}
三、捕获接口获取数据
通过前两个方法往往有时候可能无法得到我们想要的结果,捕获的html页面代码可能会缺失数据,同时还有可能会被网站监测到进而被禁掉ip地址,导致我们无法继续获取页面数据
我们想想数据是从哪来的,一般都是通过接口得到的对吧,那么要是我们可以直接访问接口呢?下面是我的思路:
- 1、找我们想要爬取数据的网站,通过在对应网站按下F12调出控制台,然后我们刷新一下页面,在NetWork板块查看请求数据
如图查看XHR这一栏可以看访问的url - 2、这里我们用csdn博客举例,在XHR这一栏寻找那些响应格式为json的url,这里我们找到了一条:
- 3、我们使用postman测试一下该接口会返回什么数据:
通过文字我们可以知道,这里的数据是导航栏这里的,如下
因此我们可以通过调用该接口获取到对应数据啦!最后将数据封装成为我们需要的格式就ok。
这种方法虽然可以稳定获取到数据,但实际上在很多网站上我们在XHR请求中是看不到接口的,这是由于考虑了跨域而使用了jsonp,这些可以在js中找,感兴趣的可以了解一下