Jsoup文档--解析body片段

最新推荐文章于 2024-06-05 09:18:44 发布

虚拟身份

最新推荐文章于 2024-06-05 09:18:44 发布

阅读量1.2k

点赞数

分类专栏：网络爬虫

网络爬虫专栏收录该内容

14 篇文章 0 订阅

订阅专栏

解析body片段

问题

有一个body HTML片段(e.g. 包含一些p标签的div；一个不完整的HTML文档)需要解析，它可能是由用户提交的评论，或是在CMS(内容管理系统)中编辑页面的主体。

解决方案

使用Jsoup.parseBodyFragment(html)方法。

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

描述

parseBodyFragment方法创建一个空文档，并插入解析过的HTML到body元素中。使用普通的Jsoup.parse(String html)方法通常也可以得到相同的结果，但是显式的将输入看作一个body片段可以确保用户输入的任何糟糕的HTML解析成body元素。
Document.body()方法能够检索文档对象中body元素的所有子元素，它相当于doc.getElementsByTag("body")。