JAVA爬虫的利器 - Jsoup学习使用

最新推荐文章于 2024-06-05 09:18:44 发布

java编程手记

最新推荐文章于 2024-06-05 09:18:44 发布

阅读量592

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_43593829/article/details/105852086

版权

本文介绍了Java爬虫工具Jsoup的基本使用，包括如何加载HTML文档，Jsoup的强大特性如网络请求配置，以及如何通过CSS选择器进行DOM操作。通过实战示例，展示了获取网页标题、图片链接和排行榜数据的过程，揭示了Jsoup在爬虫领域的高效与便捷。

摘要由CSDN通过智能技术生成

Jsoup使用

文章目录

在这里插入图片描述

Jsoup 是什么

Jsoup是一款基于java语言的html解析器，可以直接对网页URL，文件，字符串文本进行解析，并且可对生成的DOM结构进行增删改查操作，官方包提供了dom及css 选择器的方式来进行解析，API十分简洁方便，对新手用户极好，并且由于Jsoup对网页请求，DOM解析有着很好的支持，常常是爬虫的不二首选

开始使用

使用之前需要先引用下maven依赖或者jar包，截至目前为止，最新的版本是 1.13.1 ，这里我们使用比较稳定的1.11.3版本

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

需要下载jar包的小伙伴也可以直接打开页面 https://mvnrepository.com/artifact/org.jsoup/jsoup/1.11.3

在这里插入图片描述

点击jar 下载即可

加载文档

Jsoup提供了一个静态基础类Jsoup，可以通过这个类来进行文档加载，目前主要支持如下几种方式

HTML字符串

public static Document parse(String html)

@Test
public void  html() throws IOException {
   
    Document document = Jsoup.parse("<html><body><p><span>111</span></p></body></html>");
    Elements p = document.select("p span");
    System.out.println(p.text());
}

111

URL

public static Connection connect(String url)

@Test
public void  test() throws IOException {
   
    Document document = Jsoup.connect("https://gitee.com/").get();
    String title = document.title();
    System.out.println(title);
}

码云 Gitee — 基于 Git 的代码托管和研发协作平台

文件

public static Document parse(File in, String charsetName) throws IOException

@Test
public void  file() throws IOException {
   
    Document document = Jsoup.parse(new File("D:\\a.txt"),"utf-8");
    Elements p = document.select("p span");
    System.out.println

最低0.47元/天解锁文章

java编程手记

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
JAVA爬虫的利器 - Jsoup学习使用

Jsoup使用文章目录Jsoup使用Jsoup 是什么开始使用加载文档HTML字符串URL文件Jsoup为何如此强大网络请求cookieget post execute methodURLProxydata requestBodyfollowRedirectsuserAgentignoreContentTypeignoreHttpErrorsheader headersreferrerrespo...
复制链接

扫一扫