Jsoup使用
Jsoup 是什么
Jsoup是一款基于java语言的html解析器,可以直接对网页URL,文件,字符串文本进行解析,并且可对生成的DOM结构进行增删改查操作,官方包提供了dom及css 选择器的方式来进行解析,API十分简洁方便,对新手用户极好,并且由于Jsoup对网页请求,DOM解析有着很好的支持,常常是爬虫的不二首选
开始使用
使用之前需要先引用下maven依赖或者jar包,截至目前为止,最新的版本是 1.13.1 ,这里我们使用比较稳定的1.11.3版本
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
需要下载jar包的小伙伴也可以直接打开页面 https://mvnrepository.com/artifact/org.jsoup/jsoup/1.11.3
点击jar 下载即可
加载文档
Jsoup提供了一个静态基础类Jsoup,可以通过这个类来进行文档加载,目前主要支持如下几种方式
HTML字符串
public static Document parse(String html)
@Test
public void html() throws IOException {
Document document = Jsoup.parse("<html><body><p><span>111</span></p></body></html>");
Elements p = document.select("p span");
System.out.println(p.text());
}
111
URL
public static Connection connect(String url)
@Test
public void test() throws IOException {
Document document = Jsoup.connect("https://gitee.com/").get();
String title = document.title();
System.out.println(title);
}
码云 Gitee — 基于 Git 的代码托管和研发协作平台
文件
public static Document parse(File in, String charsetName) throws IOException
@Test
public void file() throws IOException {
Document document = Jsoup.parse(new File("D:\\a.txt"),"utf-8");
Elements p = document.select("p span");
System.out.println