Jsoup获取网页全部原始内容

Jsoup可以对HTML页面进行分析和元素的提取,有点类似于DOM编程。

对Jsoup常用的方式是将HTML解析成Document对象,再对之进行操作。

Jsoup也可以提取给定URL的原始HTML文档,在发送请求时,同样可以设置Cookie、data、charset等条件,Demo如下:


import org.jsoup.Connection;
import org.jsoup.Jsoup;

import java.util.HashMap;
import java.util.Map;
/**
 * <pre>
 *     <b>Title: Jsoup Demo</b>
 *     <hr/>
 *     <b>Comments:</b><br/>
 *           通过Jsoup的connect方法获取Connection对象
 *           再用Connection对象的execute方法获取Connection.Response对象
 *           使用Response对象,即可获取html原始文本内容
 * </pre>
 * Created by Lord_X_ on 2017/8/16 0:03.
 */
public class JsoupDemo {

    public static final String WEBSITE = "http://www.baidu.com";  // 站点URL,注意要加上协议(http://)

    public static Map<String, String> cookies = new HashMap<String, String>(); // cookie

    static {
        cookies.put("cookie_name", "cookie_value"); // 初始化cookie
    }

    public static void main(String[] args) {
        try {
            Connection.Response response = Jsoup.connect(WEBSITE)
                    .cookies(cookies)
                    .postDataCharset("UTF-8")
                    .execute();
            String body = response.body(); // 获取html原始文本内容
            System.out.println(body);
        } catch (Exception ex) {
            ex.printStackTrace();
        }
    }
}


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值