Jsoup可以对HTML页面进行分析和元素的提取,有点类似于DOM编程。
对Jsoup常用的方式是将HTML解析成Document对象,再对之进行操作。
Jsoup也可以提取给定URL的原始HTML文档,在发送请求时,同样可以设置Cookie、data、charset等条件,Demo如下:
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import java.util.HashMap;
import java.util.Map;
/**
* <pre>
* <b>Title: Jsoup Demo</b>
* <hr/>
* <b>Comments:</b><br/>
* 通过Jsoup的connect方法获取Connection对象
* 再用Connection对象的execute方法获取Connection.Response对象
* 使用Response对象,即可获取html原始文本内容
* </pre>
* Created by Lord_X_ on 2017/8/16 0:03.
*/
public class JsoupDemo {
public static final String WEBSITE = "http://www.baidu.com"; // 站点URL,注意要加上协议(http://)
public static Map<String, String> cookies = new HashMap<String, String>(); // cookie
static {
cookies.put("cookie_name", "cookie_value"); // 初始化cookie
}
public static void main(String[] args) {
try {
Connection.Response response = Jsoup.connect(WEBSITE)
.cookies(cookies)
.postDataCharset("UTF-8")
.execute();
String body = response.body(); // 获取html原始文本内容
System.out.println(body);
} catch (Exception ex) {
ex.printStackTrace();
}
}
}