Java解析页面数据【基于Jsoup实现】

概述

Jsoup是一个基于Java的HTML页面解析器,它提供的一套API不仅可以发送请求,而且可以实现页面的解析操作,十分方便。
在Jsoup中,每个HTML页面都被视为一个文档对象Document,它包含了诸多元素对象Element,以及存储数据或者属性的Node对象。因此解析页面数据的一般过程是:先获取Document对象,然后通过Element对象遍历,最后通过Node对象获取数据。

新建项目

在Idea中新建一个maven项目(使用maven是因为导入依赖简单,避免导入jar包等繁琐步骤)
File–>New–>Project–>Maven Archetype(右侧的Archetype选择org.apache.maven.archetypes:maven-archetype-webapp)
完成项目的建立后,你会发现在main目录中无法新建立Java class文件,解决办法可以参考这篇博客:IDEA——Maven Web工程:无法创建Java Class文件
最后在pom.xml文件中添加如下依赖即可

<dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.3</version>
</dependency>
实现代码

这里爬取的内容是博客园最新发布的文章标题

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;

public class test {
    public static void main(String[] args) {
        try{
            String url = "https://news.cnblogs.com/";
            ArrayList<String> titles = getTitles(url);
            for(String title : titles){
                System.out.println(title);
            }
        }catch(IOException e){
            e.printStackTrace();
        }
    }

    public static ArrayList<String> getTitles(String url) throws IOException{
        String cssQuery = "div#news_list div h2.news_entry a";
        Document doc = Jsoup.connect(url).get();
        Elements titleNodes = doc.select(cssQuery);
        ArrayList<String> titles = new ArrayList<String>();
        for(Element node : titleNodes){
            titles.add(node.text());
        }
        return titles;
    }
}

如果需要携带headers,代码需要修改如下

public static ArrayList<String> getTitles(String url) throws IOException{
        String cssQuery = "div#news_list div h2.news_entry a";
        Connection connection = Jsoup.connect(url);
        Connection header = connection.header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50");
        Document doc = header.get();                        
        Elements titleNodes = doc.select(cssQuery);
        ArrayList<String> titles = new ArrayList<String>();
        for(Element node : titleNodes){
            titles.add(node.text());
        }
        return titles;
    }

类似的,如果需要添加cookie等信息,也是通过这个Connection对象完成

Connection connection = Jsoup.connect("login page url");
connection.cookie("SESSIONID", "your cookie data").method(Connection.Method.POST).execute();

最后爬取的结果如下

参考博客:Jsoup使用指南

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值