JAVA爬虫的利器 - Jsoup学习使用

本文介绍了Java爬虫工具Jsoup的基本使用,包括如何加载HTML文档,Jsoup的强大特性如网络请求配置,以及如何通过CSS选择器进行DOM操作。通过实战示例,展示了获取网页标题、图片链接和排行榜数据的过程,揭示了Jsoup在爬虫领域的高效与便捷。
摘要由CSDN通过智能技术生成

Jsoup使用

在这里插入图片描述

Jsoup 是什么

Jsoup是一款基于java语言的html解析器,可以直接对网页URL,文件,字符串文本进行解析,并且可对生成的DOM结构进行增删改查操作,官方包提供了dom及css 选择器的方式来进行解析,API十分简洁方便,对新手用户极好,并且由于Jsoup对网页请求,DOM解析有着很好的支持,常常是爬虫的不二首选

开始使用

使用之前需要先引用下maven依赖或者jar包,截至目前为止,最新的版本是 1.13.1 ,这里我们使用比较稳定的1.11.3版本

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

需要下载jar包的小伙伴也可以直接打开页面 https://mvnrepository.com/artifact/org.jsoup/jsoup/1.11.3

在这里插入图片描述

点击jar 下载即可

加载文档

Jsoup提供了一个静态基础类Jsoup,可以通过这个类来进行文档加载,目前主要支持如下几种方式

HTML字符串

public static Document parse(String html)

@Test
public void  html() throws IOException {
   
    Document document = Jsoup.parse("<html><body><p><span>111</span></p></body></html>");
    Elements p = document.select("p span");
    System.out.println(p.text());
}

111

URL

public static Connection connect(String url)

@Test
public void  test() throws IOException {
   
    Document document = Jsoup.connect("https://gitee.com/").get();
    String title = document.title();
    System.out.println(title);
}

码云 Gitee — 基于 Git 的代码托管和研发协作平台
文件

public static Document parse(File in, String charsetName) throws IOException

@Test
public void  file() throws IOException {
   
    Document document = Jsoup.parse(new File("D:\\a.txt"),"utf-8");
    Elements p = document.select("p span");
    System.out.println
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值