![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Jsoup
风叶翩翩
有过众多的项目开发经验。精通Java开发,Sql数据库等,熟练使用主流开发工具如IDEA等。对开发编程有着特殊的爱好和恒心。
展开
-
Jsoup消除不受信任的HTML(用于防止XSS的攻击)
在开发网站的时候,经常会提供用户评论的功能。有些不怀好意的用户,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,此时需要清理该HTML,以避免跨站脚本cross-site scripting攻击(XSS)。我们可以使用jsoup HTML Cleaner 方法进行清除,但需要指定一个可配置的 Whitelist。String unsafe = "...原创 2020-01-27 16:37:54 · 211 阅读 · 0 评论 -
Jsoup设置元素的文本内容
修改一个HTML文档中的文本内容。示例如下Element div = doc.select("div").first(); // <div></div>div.text("five > four"); // <div>five > four</div>div.prepend("First ");div.append(" ...原创 2020-01-27 16:00:31 · 678 阅读 · 0 评论 -
Jsoup设置一个元素的HTML内容
获取一个元素中的HTML内容,可以使用Element中的HTML设置方法。示例Element div = doc.select("div").first(); // <div></div>div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p><...原创 2020-01-27 15:44:16 · 403 阅读 · 0 评论 -
Jsoup设置属性值
在处理html时,我们有时候可能想在解析一个Document之后修改其中的某些属性值,如图片地址、class名称等各种属性,然后再保存到磁盘或都输出到前台页面。可以使用属性设置方法Element.attr(String key, String value), 和 Elements.attr(String key, String value)假如你需要修改一个元素的 class 属性,可以使...原创 2020-01-27 15:39:19 · 1138 阅读 · 0 评论 -
Jsoup获取所有链接
从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。运行下面程序需要指定一个URLs作为参数package org.jsoup.examples;import org.jsoup.Jsoup;import org.jsoup.helper.Validate;import org.jsoup.nodes.Document;import or...原创 2020-01-27 15:28:15 · 1152 阅读 · 0 评论 -
Jsoup处理URLs
我们在处理HTML内容时,可能经常会遇到这种问题,需要将html页面里面的链接地址从相对地址转换成绝对地址,如何使用Jsoup来解决这个问题呢?方法在你解析文档时确保有指定base URI,然后使用 abs: 属性前缀来取得包含base URI的绝对路径。示例Document doc = Jsoup.connect("http://www.baidu.com/").get();Ele...原创 2020-01-27 15:23:47 · 156 阅读 · 0 评论 -
Jsoup从元素中抽取属性 文本和HTML
在解析获得一个Document实例对象,并查找到一些元素之后,我们如何取得在这些元素中的数据呢???使用Jsoup抽取属性,一般方法如下:1.要取得一个属性的值,可以使用Node.attr(String key) 方法2.对于一个元素中的文本,可以使用Element.text()方法3.对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerH...原创 2020-01-27 15:14:49 · 507 阅读 · 0 评论 -
Jsoup使用选择器语法来查找元素
如果你想使用类似于CSS或jQuery的语法来查找和操作元素,我们可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现:File input = new File("html path");Document document = Jsoup.parser(input, "UTF-8", "http...原创 2020-01-27 15:06:58 · 450 阅读 · 0 评论 -
Jsoup使用DOM方法来遍历一个文档
要从一个HTML文档要从中提取数据,并了解这个HTML文档的结构需要先将HTML解析成一个Document之后,然后使用类似于DOM的方法进行操作。File input = new File("/file/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://baidu.com/");Element content ...原创 2020-01-27 15:01:18 · 325 阅读 · 0 评论 -
Jsoup从一个文件加载一个文档
在我们的磁盘里有一个HTML文件,我们需要对它进行解析从中抽取数据或进行修改。使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法:File input = new File("/file/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://...原创 2020-01-23 16:30:45 · 180 阅读 · 0 评论 -
Jsoup根据URL加载一个Document
有时候我们可能希望通过一个url地址,然后提取里面的内容,转换成document对象。用 Jsoup.connect(String url)方法:Document doc = Jsoup.connect("http://baidu.com/").get();String title = doc.title();解说connect(String url) 方法创建一个新的 Connect...原创 2020-01-23 16:14:43 · 317 阅读 · 0 评论 -
Jsoup解析body片段
假如我们现在有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。使用Jsoup.parseBodyFragment(String html)方法。String html = "<div><p>Lorem ipsum.</p>...原创 2020-01-23 16:05:10 · 729 阅读 · 0 评论 -
Jsoup解析HTML字符串
在处理一个html字符串。我们可能需要对其进行解析,修改内容或者提取内容等,那麽我们应该解决这一系列的问题呢?Jsoup可以帮助我们轻松的解决这些问题。我们可以使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri) 。String html = "<html><head><...原创 2020-01-23 15:49:44 · 766 阅读 · 0 评论 -
jsoup解析和遍历一个html文档详解
解析和遍历一个HTML文档如何解析一个HTML文档:String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html&...原创 2020-01-22 12:04:29 · 676 阅读 · 0 评论 -
jsoup 简单应用
JSOUP指的是前端爬虫框架,对HTML网页的一系列操作包括信息的获取内容的修改等。jsoup简单应用1.三种加载HTML的方法 @Test public void test1() throws IOException { //从URL加载HTML Document document = Jsoup.connect("http://www.gug...原创 2020-01-22 11:32:44 · 177 阅读 · 0 评论