使用java爬取数据的三种思路

最新推荐文章于 2024-05-08 03:19:42 发布

王酷酷-

最新推荐文章于 2024-05-08 03:19:42 发布

阅读量5.6k

点赞数 4

文章标签： java

本文链接：https://blog.csdn.net/weixin_51348116/article/details/124232507

版权

一、使用HttpClient

HttpClient是一种简单的捕获html页面的工具包，现已不再维护，已经被Apache 的HttpComponents替代了，缺陷就是获取不到js获取到的动态数据，从而使得爬取的数据缺失。

1、导入依赖

<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.8</version>
</dependency>

2、实现代码

import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpClientTest {
	/**
     * 获取html页面内容
     * @param url 链接地址
     * @return
     */
    public static String getHtmlByHttpClient(String url) {
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet request = new HttpGet(url);
        try {
            //3.执行get请求，相当于在输入地址栏后敲回车键
            response = httpClient.execute(request);

            //4.判断响应状态为200，进行处理
            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                //5.获取响应内容
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf-8");
                return html;
            } else {
                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
                System.out.println("返回状态不是200");
                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //6.关闭
            HttpClientUtils.closeQuietly(response);
            HttpClientUtils.closeQuietly(httpClient);
        }
    }
}

二、使用HtmlUnit

HtmlUnit可以用来模拟浏览器运行，可以把它当作一个没有界面的浏览器，也就是用代码模拟鼠标等操作来操作网页，运行速度快。
HtmlUnit是一款开源的java 页面分析工具，作为junit的扩展之一，可以模拟js运行

->使用htmlUnit捕获百度搜索页面

通过htmlUnit操作百度高级搜索界面最终捕获搜索结果的html页面内容

1、导入依赖

<dependency>   
        <groupId>net.sourceforge.htmlunit</groupId>  
        <artifactId>htmlunit</artifactId>  
        <version>2.23</version>  
</dependency>

2、代码实例

public static String Baidu(String keyword)throws Exception{
    WebClient webclient = new WebClient()；
       //ssl认证
    //webclient.getOptions().setUseInsecureSSL(true);
       //由于有的网页js书写不规范htmlunit会报错，所以去除这种错误让程序执行完全（不影响结果）
    webclient.getOptions().setThrowExceptionOnScriptError(false);
    webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
       //不加载css
    webclient.getOptions().setCssEnabled(false);
       //由于是动态网页所以一定要加载js及执行
    webclient.getOptions().setJavaScriptEnabled(true);
    //打开百度高级搜索的网址
    HtmlPage htmlpage = webclient.getPage("http://www.baidu.com/gaoji/advanced.html");
       //获取网页from控件（f1为控件name）
    HtmlForm form = htmlpage.getFormByName("f1");
    HtmlSubmitInput button = form.getInputByValue("百度一下");
    HtmlTextInput textField = form.getInputByName("q1");
    textField.setValueAttribute(keyword);
    final HtmlSelect htmlSelet=form.getSelectByName("rn");
    htmlSelet.setDefaultValue("10");
    //隐藏值
    final HtmlHiddenInput hiddenInputtn = form.getInputByName("tn");
    hiddenInputtn.setDefaultValue("baiduadv");
      //发送请求（相当于点击百度一下按钮）获取返回后的网页
    final HtmlPage page = button.click();
      //获取网页的文本信息
    String result = page.asText();
      //获取网页源码
      //String result = page.asXml();
    //System.out.println(result);
    webclient.close();
    return result;
}

三、捕获接口获取数据

通过前两个方法往往有时候可能无法得到我们想要的结果，捕获的html页面代码可能会缺失数据，同时还有可能会被网站监测到进而被禁掉ip地址，导致我们无法继续获取页面数据
我们想想数据是从哪来的，一般都是通过接口得到的对吧，那么要是我们可以直接访问接口呢？下面是我的思路：

1、找我们想要爬取数据的网站，通过在对应网站按下F12调出控制台，然后我们刷新一下页面，在NetWork板块查看请求数据
如图查看XHR这一栏可以看访问的url
2、这里我们用csdn博客举例，在XHR这一栏寻找那些响应格式为json的url，这里我们找到了一条：
3、我们使用postman测试一下该接口会返回什么数据：
通过文字我们可以知道，这里的数据是导航栏这里的，如下
因此我们可以通过调用该接口获取到对应数据啦！最后将数据封装成为我们需要的格式就ok。

这种方法虽然可以稳定获取到数据，但实际上在很多网站上我们在XHR请求中是看不到接口的，这是由于考虑了跨域而使用了jsonp，这些可以在js中找，感兴趣的可以了解一下

王酷酷-

关注

4
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
使用java爬取数据的三种思路

目录一、使用HttpClient二、使用HtmlUnit->使用htmlUnit捕获百度搜索页面三、捕获接口获取数据一、使用HttpClientHttpClient是一种简单的捕获html页面的工具包，现已不再维护，已经被Apache 的HttpComponents替代了，缺陷就是获取不到js获取到的动态数据，从而使得爬取的数据缺失。1、导入依赖<dependency> <groupId>org.apache.httpcomponents</gro
复制链接

扫一扫