Jsoup获取网页全部原始内容

最新推荐文章于 2023-07-09 21:26:23 发布

Mr羽墨青衫

最新推荐文章于 2023-07-09 21:26:23 发布

阅读量4.2k

点赞数 2

分类专栏： Java 文章标签： Java Jsoup HTML 爬取

本文链接：https://blog.csdn.net/xzm_rainbow/article/details/77203760

版权

Java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Jsoup可以对HTML页面进行分析和元素的提取，有点类似于DOM编程。

对Jsoup常用的方式是将HTML解析成Document对象，再对之进行操作。

Jsoup也可以提取给定URL的原始HTML文档，在发送请求时，同样可以设置Cookie、data、charset等条件，Demo如下：

import org.jsoup.Connection;
import org.jsoup.Jsoup;

import java.util.HashMap;
import java.util.Map;
/**
 * <pre>
 *     <b>Title: Jsoup Demo</b>
 *     <hr/>
 *     <b>Comments:</b><br/>
 *           通过Jsoup的connect方法获取Connection对象
 *           再用Connection对象的execute方法获取Connection.Response对象
 *           使用Response对象，即可获取html原始文本内容
 * </pre>
 * Created by Lord_X_ on 2017/8/16 0:03.
 */
public class JsoupDemo {

    public static final String WEBSITE = "http://www.baidu.com";  // 站点URL，注意要加上协议(http://)

    public static Map<String, String> cookies = new HashMap<String, String>(); // cookie

    static {
        cookies.put("cookie_name", "cookie_value"); // 初始化cookie
    }

    public static void main(String[] args) {
        try {
            Connection.Response response = Jsoup.connect(WEBSITE)
                    .cookies(cookies)
                    .postDataCharset("UTF-8")
                    .execute();
            String body = response.body(); // 获取html原始文本内容
            System.out.println(body);
        } catch (Exception ex) {
            ex.printStackTrace();
        }
    }
}