试用Jsoup解析html

缘由:调用yarn的api得到任务日志,但是返回值是个html,需要将其中的日志信息解析出来。

引入jar包:

<dependency>
<groupId>org.junit.jupiter</groupId>
<artifactId>junit-jupiter</artifactId>
<version>5.7.0</version>
<scope>test</scope>
</dependency>

方法一:使用在线地址,发送请求后解析

package demo.com.test;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;
import java.io.IOException;
import java.util.Arrays;
import java.util.List;

public class JsoupHMTest {
    @Test
    public  void t() throws IOException {
        String url = "http://hdp02.bonc.com:23999/node/containerlogs/container_e08_1684747720686_0127_01_000001/hadoop/stdout/?start=0&start=0";
        Document document = Jsoup.connect(url).get();
        String contennt = document.getElementsByTag("pre").first().html();
        List<String> logList = Arrays.asList(contennt.split("\n"));
        System.out.println(logList);
        for(int  i  =0;i<logList.size();i++ ){
            System.out.print(i + "--------");
            System.out.println(logList.get(i));
        }
        String logoSrc = document.select("#logo").html();
        System.out.println("id为logo的元素内容为" + logoSrc);
    }
}

方法二:解析本地文件

package demo.com.test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;
import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.List;
public class JsoupHM2Test {
    @Test
    public  void t() throws IOException {
        Document root = Jsoup.parse(new File("C:\\Users\\wysghmbb\\Desktop\\stdout2.htm"), "utf-8");
        String contennt = root.getElementsByTag("pre").first().html();
        List<String> logList = Arrays.asList(contennt.split("\n"));
        for(int  i  =0;i<logList.size();i++ ){
            System.out.print(i + "--------");
            System.out.println(logList.get(i));
        }
    }}

效果举例

在这里插入图片描述

其他链接

获取document后,还可以根据id或者name、标签等进行解析,参考https://blog.csdn.net/qq_26786441/article/details/106207828

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值