Jsoup简介
Jsoup是一个基于Java的HTML下载和解析工具,相当于Python的爬虫,能实现Python爬虫的基本功能。
利用Jsoup,你可以将网页里面你想收集的数据抓取下来,要知道有时候可能面临这样的情况:需要处理的网页多,单个网页的数据多,靠人工一点一点地获取,效率低下,无法适应大数据时代下的数据获取需求。
当然,现实中还有很多Jsoup的应用场景,这里就不细说了。
Jsoup中,主要操作的类(Class)两个:Document和Element。Document是HTML网页文档的抽象描述,Element是Tag标签抽象节点的描述。
进一步的理解可参考本文的Jsoup使用示例。
Jsoup简单使用示例
代码
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class Main {
public static void main(String[] args) throws IOException {
//HTML的一个文档
String HTML = "<html> <head><title>Jsoup学习</title></head> <body><p>这是示例文档</p></body> </html>";
//从字符串中获取Document对象
Document document = Jsoup.parse(HTML);
//从Document对象中解析出HTML的head部分
Element headElement = document.head();
//从Document对象中解析出HTML的body部分
Element bodyElement = document.body();
//打印输出head部分
System.out.println("head:*******************");
System.out.println(headElement);
//打印输出body部分
System.out.println("body:*******************");
System.out.println(bodyElement);
}
}
输出为
head:*******************
<head>
<title>Jsoup学习</title>
</head>
body:*******************
<body>
<p>这是示例文档</p>
</body>