【Java爬虫】Jsoup

最新推荐文章于 2024-04-30 14:28:06 发布

风吹我亦散

最新推荐文章于 2024-04-30 14:28:06 发布

阅读量6.3k

点赞数 17

文章标签： java

本文链接：https://blog.csdn.net/weixin_45468845/article/details/108563904

版权

想要学习Java爬虫，肯定要学Jsoup。jsoup是一款Java的HTML解析器，主要用来对HTML解析，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

摘要由CSDN通过智能技术生成

官网
 中文使用手册

jsoup.jar官网下载
 jsoup.jar百度网盘下载提取码：g6ek

jsoup是一款Java的HTML解析器，主要用来对HTML解析，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

Jsoup的主要类

org.jsoup.Jsoup类

Jsoup类是任何Jsoup程序的入口点，并将提供从各种来源加载和解析HTML文档的方法，Jsoup类的一些重要方法如下：
在这里插入图片描述

org.jsoup.nodes.Document类：

该类表示通过Jsoup库加载HTML文档。可以使用此类执行适用于整个HTML文档的操作。Document类的重要方法参见：http://jsoup.org/apidocs/org/jsoup/nodes/Document.html，Document类的常用方法如下所示：
在这里插入图片描述

org.jsoup.nodes.Element类：

HTML元素是由标签名称，属性和子节点组成。使用Element类可以提取数据，遍历节点和操作HTMLElement类的重要方法可以参见：http://jsoup.org/apidocs/org/jsoup/nodes/Element.html，Element类常用方法如下所示：
在这里插入图片描述

准备工作

创建一个Jsoup工程，目录结构如下：
在这里插入图片描述
要添加jsoup的jar包，放到了百度网盘里，版本是：jsoup-1.11.3

爬取内容案例

爬取网页内容

从URL加载文档，使用Jsoup.connect()方法从URL加载

待爬取的页面信息如下图：
在这里插入图片描述

代码为：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

/**
 * 获取 http://www.ygdy8.net/html/gndy/index.html 页面的“国内电影下载排行“
 */
public class JsoupDemo {
   
    public static void main(String[] args) {
   
        //URLLoader 是一个静态方法，可以通过类名直接调用
        JsoupDemo.URLLoader("http://www.ygdy8.net/html/gndy/index.html");
    }

    public static void URLLoader(String url){
   
        Document d1;

        try {
   
            //通过Jsoup类中的静态方法connect返回Document对象，该document对象实际为整个html页面内容。
            d1 = Jsoup.connect(url).get();
            System.out.println("网页的标题是:" + d1.title() + "\n");

            /**
             * 1. 分析网页结构，发现我们想要的国内电影下载排行榜，所对应的class样式为co_content2，
             * 2. 可以通过属性、后代选择器选中元素" div[class=‘co_content2’] ul a" ，然
             * 3. 后通过Element类中的text()方法获取文本内容
             */
            Elements es = d1.select

最低0.47元/天解锁文章

风吹我亦散

关注

17
点赞
踩
108

收藏

觉得还不错? 一键收藏
0
评论
【Java爬虫】Jsoup

想要学习Java爬虫，肯定要学Jsoup。jsoup是一款Java的HTML解析器，主要用来对HTML解析，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
复制链接

扫一扫