jsoup api使用

宋振嘉

于 2022-04-30 22:45:51 发布

阅读量656

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_47805561/article/details/124519975

版权

Jsoup 网页爬取 HTML解析 DOM JSON转换

关键词由CSDN通过智能技术生成

文章目录

前言
一、获取网页源码
二、获取元素
三、JSON和对象的互相转换
总结

前言

我们可以使用jsoup包来爬取一些网站上的信息，并对其进行处理

一、获取网页源码

依赖包：
import okhttp3.ConnectionPool;
import okhttp3.Dispatcher;
import okhttp3.OkHttpClient;
import okhttp3.Request;

private static final OkHttpClient OK_HTTP_CLIENT = new OkHttpClient
            .Builder()
            .connectTimeout(超时时间, TimeUnit.SECONDS)
            .dispatcher(线程调度策略)
            .connectionPool(new ConnectionPool(2, 1, TimeUnit.MINUTES))
            .build();
Request request = new Request.Builder().url(要获取的网页).build();
String s =OK_HTTP_CLIENT.newCall(request).execute().body().string();//s即为网页源码的字符串

二、获取元素

1.创建Document对象

Document document = Jsoup.parse(s);

2.通过DOM获取对象

Elements elements=getElementById(String id)：通过id来获取
Elements elements=getElementsByTag(String tagName)：通过标签名字来获取
Elements elements=getElementsByClass(String className)：通过类名来获取
Elements elements=getElementsByAttribute(String key)：通过属性名字来获取
Elements elements=getElementsByAttributeValue(String key, String value)：通过指定的属性名字，属性值来获取
Elements elements=getAllElements()：获取所有元素