概述
Jsoup是一个基于Java的HTML页面解析器,它提供的一套API不仅可以发送请求,而且可以实现页面的解析操作,十分方便。
在Jsoup中,每个HTML页面都被视为一个文档对象Document,它包含了诸多元素对象Element,以及存储数据或者属性的Node对象。因此解析页面数据的一般过程是:先获取Document对象,然后通过Element对象遍历,最后通过Node对象获取数据。
新建项目
在Idea中新建一个maven项目(使用maven是因为导入依赖简单,避免导入jar包等繁琐步骤)
File–>New–>Project–>Maven Archetype(右侧的Archetype选择org.apache.maven.archetypes:maven-archetype-webapp)
完成项目的建立后,你会发现在main目录中无法新建立Java class文件,解决办法可以参考这篇博客:IDEA——Maven Web工程:无法创建Java Class文件
最后在pom.xml文件中添加如下依赖即可
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
实现代码
这里爬取的内容是博客园最新发布的文章标题
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.util.ArrayList;
public class test {
public static void main(String[] args) {
try{
String url = "https://news.cnblogs.com/";
ArrayList<String> titles = getTitles(url);
for(String title : titles){
System.out.println(title);
}
}catch(IOException e){
e.printStackTrace();
}
}
public static ArrayList<String> getTitles(String url) throws IOException{
String cssQuery = "div#news_list div h2.news_entry a";
Document doc = Jsoup.connect(url).get();
Elements titleNodes = doc.select(cssQuery);
ArrayList<String> titles = new ArrayList<String>();
for(Element node : titleNodes){
titles.add(node.text());
}
return titles;
}
}
如果需要携带headers,代码需要修改如下
public static ArrayList<String> getTitles(String url) throws IOException{
String cssQuery = "div#news_list div h2.news_entry a";
Connection connection = Jsoup.connect(url);
Connection header = connection.header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50");
Document doc = header.get();
Elements titleNodes = doc.select(cssQuery);
ArrayList<String> titles = new ArrayList<String>();
for(Element node : titleNodes){
titles.add(node.text());
}
return titles;
}
类似的,如果需要添加cookie等信息,也是通过这个Connection对象完成
Connection connection = Jsoup.connect("login page url");
connection.cookie("SESSIONID", "your cookie data").method(Connection.Method.POST).execute();
最后爬取的结果如下
参考博客:Jsoup使用指南