jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup Cookbook(中文版)
http://www.open-open.com/jsoup/
从一个URL加载一个Document
解决方法
使用 Jsoup.connect(String url)
方法:
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
说明
connect(String url)
方法创建一个新的 Connection
, 和 get()
取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
Connection
接口还提供一个方法链来解决特殊请求,具体如下:
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
这个方法只支持Web URLs (http
和https
协议); 假如你需要从一个文件加载,可以使用parse(File in, String charsetName)
代替。