Java解析页面数据【基于Jsoup实现】

Blank_Coder

已于 2023-05-27 14:40:09 修改

阅读量306

点赞数 1

分类专栏：个人学习文章标签： java intellij-idea 爬虫

于 2023-05-27 14:38:34 首次发布

本文链接：https://blog.csdn.net/weixin_46267824/article/details/130900691

版权

个人学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

概述

Jsoup是一个基于Java的HTML页面解析器，它提供的一套API不仅可以发送请求，而且可以实现页面的解析操作，十分方便。
在Jsoup中，每个HTML页面都被视为一个文档对象Document，它包含了诸多元素对象Element，以及存储数据或者属性的Node对象。因此解析页面数据的一般过程是：先获取Document对象，然后通过Element对象遍历，最后通过Node对象获取数据。

新建项目

在Idea中新建一个maven项目（使用maven是因为导入依赖简单，避免导入jar包等繁琐步骤）
File–>New–>Project–>Maven Archetype（右侧的Archetype选择org.apache.maven.archetypes:maven-archetype-webapp）
完成项目的建立后，你会发现在main目录中无法新建立Java class文件，解决办法可以参考这篇博客：IDEA——Maven Web工程：无法创建Java Class文件
最后在pom.xml文件中添加如下依赖即可

<dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.3</version>
</dependency>

实现代码

这里爬取的内容是博客园最新发布的文章标题

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;

public class test {
    public static void main(String[] args) {
        try{
            String url = "https://news.cnblogs.com/";
            ArrayList<String> titles = getTitles(url);
            for(String title : titles){
                System.out.println(title);
            }
        }catch(IOException e){
            e.printStackTrace();
        }
    }

    public static ArrayList<String> getTitles(String url) throws IOException{
        String cssQuery = "div#news_list div h2.news_entry a";
        Document doc = Jsoup.connect(url).get();
        Elements titleNodes = doc.select(cssQuery);
        ArrayList<String> titles = new ArrayList<String>();
        for(Element node : titleNodes){
            titles.add(node.text());
        }
        return titles;
    }
}

如果需要携带headers，代码需要修改如下

public static ArrayList<String> getTitles(String url) throws IOException{
        String cssQuery = "div#news_list div h2.news_entry a";
        Connection connection = Jsoup.connect(url);
        Connection header = connection.header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50");
        Document doc = header.get();                        
        Elements titleNodes = doc.select(cssQuery);
        ArrayList<String> titles = new ArrayList<String>();
        for(Element node : titleNodes){
            titles.add(node.text());
        }
        return titles;
    }

类似的，如果需要添加cookie等信息，也是通过这个Connection对象完成

Connection connection = Jsoup.connect("login page url");
connection.cookie("SESSIONID", "your cookie data").method(Connection.Method.POST).execute();

最后爬取的结果如下

参考博客：Jsoup使用指南

Blank_Coder

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Java解析页面数据【基于Jsoup实现】

Jsoup是一个基于Java的HTML页面解析器，它提供的一套API不仅可以发送请求，而且可以实现页面的解析操作，十分方便。在Jsoup中，每个HTML页面都被视为一个文档对象Document，它包含了诸多元素对象Element，以及存储数据或者属性的Node对象。因此解析页面数据的一般过程是：先获取Document对象，然后通过Element对象遍历，最后通过Node对象获取数据。
复制链接

扫一扫