Jsoup 简介与入门

最新推荐文章于 2023-12-18 10:54:17 发布

梦星辰.

最新推荐文章于 2023-12-18 10:54:17 发布

阅读量720

点赞数

分类专栏： Jsoup-Java爬虫

本文链接：https://blog.csdn.net/weixin_45792450/article/details/104103509

版权

Jsoup-Java爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Jsoup简介

        Jsoup是一个基于Java的HTML下载和解析工具，相当于Python的爬虫，能实现Python爬虫的基本功能。
        利用Jsoup，你可以将网页里面你想收集的数据抓取下来，要知道有时候可能面临这样的情况：需要处理的网页多，单个网页的数据多，靠人工一点一点地获取，效率低下，无法适应大数据时代下的数据获取需求。
        当然，现实中还有很多Jsoup的应用场景，这里就不细说了。
        Jsoup中，主要操作的类(Class)两个：Document和Element。Document是HTML网页文档的抽象描述，Element是Tag标签抽象节点的描述。
        进一步的理解可参考本文的Jsoup使用示例。

Jsoup简单使用示例

代码

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class Main {

	public static void main(String[] args) throws IOException {
		
		//HTML的一个文档
		String HTML = "<html>   <head><title>Jsoup学习</title></head>   <body><p>这是示例文档</p></body>   </html>";
		//从字符串中获取Document对象
		Document document = Jsoup.parse(HTML);
		//从Document对象中解析出HTML的head部分
		Element headElement = document.head();
		//从Document对象中解析出HTML的body部分
		Element bodyElement = document.body();
		//打印输出head部分
		System.out.println("head:*******************");
		System.out.println(headElement);
		//打印输出body部分
		System.out.println("body:*******************");
		System.out.println(bodyElement);
		
	}
	
}

输出为

head:*******************
<head>
 <title>Jsoup学习</title>
</head>
body:*******************
<body>
 <p>这是示例文档</p> 
</body>

Jsoup典型的使用过程

1.下载网页得到Document对象

2.利用Element的方法解析Document内容

Jsoup的jar包下载

百度网盘
https://pan.baidu.com/s/16LlwU1bRpbcei1_bqeQb2Q

梦星辰.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Jsoup 简介与入门

Jsoup简介Jsoup是一个Java的HTML下载和解析工具，相当于Python的爬虫，用好了，基本能实现Python爬虫的功能。Jsoup中，主要操作两个类：Document和Element。Document主要指代对象是网页文档，Element主要指代对象是网页文档中的各个Tag标签抽象出来的节点。Jsoup基本使用过程1.下载网页得到Document对象2.利用Element的方法...
复制链接

扫一扫