从String中解析文档
问题
Java String对象存有HTML,希望解析该HTML获取其内容,或确保它有良好的格式,或修改它。这个String对象可能来自于用户输入、文件或web中。
解决方案
使用静态方法Jsoup.parse(String html)
,或Jsoup.parse(String html, String baseUri)
。
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
描述
parse(String html, String baseUri)
方法将输入的HTML解析为新的Document, 参数baseUri用来将html中的相对URL转换为绝对URL,指定从那个网站获取文档。- 只要传递一个非空字符串,就可以成功、合理的解析出一个包含(至少)一个
head
和body
元素的Document。 - 一旦有了Document对象,就可以使用Document或它父类
Element
和Node
中适当的方法来获取相关数据。