java获取页面html,使用jsoup清除标签里面的标签的方法 例如<p><strong>heihei</strong></p><p><strong>哈哈哈哈哈</strong></p>

做一个党史今天的功能
在这里插入图片描述

1.我是通过一下方法获取到html

 //解析 党史今天  https://topics.gmw.cn/node_137686.htm
     public static String httpsRequest1(String requestUrl, String requestMethod, String outputStr) {
        StringBuffer buffer = new StringBuffer();
        try {
// 创建SSLContext对象,并使用我们指定的信任管理器初始化
            TrustManager[] tm = {new X509TrustManager1()};
            SSLContext sslContext = SSLContext.getInstance("SSL", "SunJSSE");
            sslContext.init(null, tm, new java.security.SecureRandom());
// 从上述SSLContext对象中得到SSLSocketFactory对象
            SSLSocketFactory ssf = sslContext.getSocketFactory();

            URL url = new URL(requestUrl);
            HttpsURLConnection httpUrlConn = (HttpsURLConnection) url.openConnection();
            httpUrlConn.setSSLSocketFactory(ssf);

            httpUrlConn.setDoOutput(true);
            httpUrlConn.setDoInput(true);
            httpUrlConn.setUseCaches(false);
// 设置请求方式(GET/POST)
            httpUrlConn.setRequestMethod(requestMethod);

            if ("GET".equalsIgnoreCase(requestMethod))
                httpUrlConn.connect();

// 当有数据需要提交时
            if (null != outputStr) {
                OutputStream outputStream = httpUrlConn.getOutputStream();
// 注意编码格式,防止中文乱码
                outputStream.write(outputStr.getBytes("UTF-8"));
                outputStream.close();
            }

// 将返回的输入流转换成字符串
            InputStream inputStream = httpUrlConn.getInputStream();
            InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");
            BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

            String str = null;
            while ((str = bufferedReader.readLine()) != null) {
                buffer.append(str);
            }
            bufferedReader.close();
            inputStreamReader.close();
// 释放资源
            inputStream.close();
            inputStream = null;
            httpUrlConn.disconnect();
        } catch (ConnectException ce) {
            ce.printStackTrace();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return buffer.toString();
    }

2.使用jsoup 解析页面代码

 public static void main(String[] args) {
        String url = "https://topics.gmw.cn/node_137686.htm";
        String result = UrlUtil.httpsRequest1(url, "GET", null);
        Document doc = Jsoup.parse(result); //整个html
        Elements es = doc.select(".m_r_main .m_con p strong");// 获取要删除的标签里面的内容
       Elements s = es.select("strong").remove();  //执行删除操作
        Elements es2 = doc.select(".m_r_main .m_con p ");//再获取你想要的内容

        List<HistoryToday> historyTodays= new ArrayList<HistoryToday>();
        for(Element e:es2){
            if(!StringUtil.isEmpty(e.text())){
            HistoryToday today = new HistoryToday();
            today.setLink(url);
            today.setTitle(e.text().trim());
            historyTodays.add(today);
            }
        }
        System.out.println(historyTodays.toString());
    }
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值