信息抓取一步骤最清晰最简单的Jsoup使用流程！！！（一）

最新推荐文章于 2024-04-20 14:22:23 发布

喂马人

最新推荐文章于 2024-04-20 14:22:23 发布

阅读量758

点赞数 2

分类专栏：信息爬取文章标签： java

本文链接：https://blog.csdn.net/weixin_47756184/article/details/116229041

版权

信息爬取专栏收录该内容

1 篇文章 1 订阅

订阅专栏

文章目录

前言
一、Jsoup是什么？
二、使用步骤
总结
微博热搜榜获取案例

前言

在工作中需要不定期的从一些网站中获取信息，这里我通常从静态页面获取的方法是用Jsoup，方便快捷。
可以解决问题：
1. 想要获取页面的批量数据。
2. 写一次代码即可多次使用，持续更新资源。
3. 抓取信息代码简单。

一、Jsoup是什么？

jsoup是一款Java的HTML解析器，主要用来对HTML解析，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
按我的理解就是层层获取信息，直到自己想要的那个信息。

二、使用步骤

1.引入Jsoup包

这里以Idea的操作示范：

创建工程
我这以创建maven为例，因为可直接在pom.xml中引入依赖。
大家也可以直接把Jsoup包下载下来，放到lib目录下。

在要创建的位置，右键选择New—>Module。
在这里插入图片描述
选择Maven后，设置好自己的JDK版本，直接Next。

输入组名和项目名称，直接Next。

项目名，文件放至位置确认好，直接Finish。

在pom.xml中引入Jsoup依赖。
依赖可从maven仓库中查找 https://mvnrepository.com/tags/maven

搜索在这里插入图片描述

选择

下载什么版本的Jsoup自己选择，如纠结的话，直接选下载人多的那版就对了哦吼吼。

复制画圈内容。
在这里插入图片描述

将复制的文本直接粘贴到项目的pom.xml中。

在右侧Maven管理栏点击两个刷新的按钮，直到Dependencies处出现下载好的Jsoup包。

2.获取信息代码

获取代码步骤：
1.用Jsoup访问网站得到 Document。
2.通过Document获取Element（元素）信息。
3.通过Element获取信息。
注意！！！此处操作时，要打你想获取的网页并按F12确定好你要爬取信息的位置。

2.1 访问网站（获取Document）

方法一：

Document document = Jsoup.connect(网站地址).timeout(响应时间单位毫秒).get();

方法二：

Document document = Jsoup.parse(new URL(网站地址), 响应时间单位毫秒);

2.2 通过Document获取Element（元素）信息

方法一：根据"id" 查询元素 --->返回 Element对象 doucument.getElementById（""）

 Element data = document.getElementById("Id名");

方法二：根据"标签" 获取元素 ---> 返回 Element对象 doucument.getElementsByTag（""）

  Element ele = byClass.getElementsByTag("标签名")；

<br>

方法三：根据"class" 获取元素 —> 返回 Element对象
doucument.getElementsClass（""）

Elements elementsByClass = data.getElementsByClass("class值");

<br>

方法四：根据"属性" 获取元素 —> 返回 Element对象
doucument.getElementsByAttribute（""）

Elements ele = doucument.getElementsByAttribute（"属性值"）

doucument.getElementsByAttributeValue（"属性名","属性内容"）
我最喜欢用的，几乎可以替代上面几种方法。

Elements ele = doucument.getElementsByAttributeValue（"属性名","属性内容"）；

通过网页并按F12确定好你要爬取信息的位置便可看到id，标签，class，属性

2.3 通过Element获取信息

因为Elements 包含很多东西，故一般在这要遍历Elements才能获取里面更小一级的信息。

1.从元素 获取"文本内容"
 element.text（）

2.从元素 获取"属性的值"
 element.attr("属性名")
 
3.从元素 获取"所有属性值"
 element.attributes()
   
4.从元素中 获取"classname"
 element.className()
   
5.从元素中 获取"id"
 element.id()

2.4 获取到子信息

一般获取到信息之后可以直接输出，或者用数组等方式将他们保存，之后随自己想打印或者怎么样这些数据。

总结

1.需要随时打开想要爬取信息的网页，按F12，图片画圈的按钮便可精确想要获取信息的位置。
在这里插入图片描述
2.获取信息的流程，就像剥洋葱一样，一层一层获取的。

这篇流程，是我在工作时比较常用的，当然由通过选择器的方式获取元素，更近一步的内容案例我应该会在下一篇中进行流程总结。

微博热搜榜获取案例

虽然没什么用，但是可以简单练手入门哈哈哈哈哈哈哈哈（说白了，这个简单）

public class ParseWeibo {
    public static void main(String[] args) throws Exception {
       //网站链接，访问， 获取Document
       String url = "https://s.weibo.com/top/summary";
        Document document = Jsoup.parse(new URL(url), 30000);
        //由Document 获取 Element
        Element data = document.getElementById("pl_top_realtimehot");
        //由Element 获取 元素
        Elements elementsByClass = data.getElementsByClass("td-02");
        //遍历所有元素
        for (Element byClass : elementsByClass) {
           //热搜获取标题
            String a = byClass.getElementsByTag("a").text();
            //获取热搜标题的链接
            String herf = byClass.getElementsByTag("a").attr("href");
            System.out.println(a);
            System.out.println(herf);
            System.out.println("===================================");

   }
}

喂马人

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
信息抓取一步骤最清晰最简单的Jsoup使用流程！！！（一）

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例
复制链接

扫一扫