信息抓取 一 步骤最清晰最简单的Jsoup使用流程!!!(一)


前言

在工作中需要不定期的从一些网站中获取信息,这里我通常从静态页面获取的方法是用Jsoup,方便快捷。
可以解决问题:

1. 想要获取页面的批量数据。
2. 写一次代码即可多次使用,持续更新资源。
3. 抓取信息代码简单。

一、Jsoup是什么?

jsoup是一款Java的HTML解析器,主要用来对HTML解析,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
按我的理解就是层层获取信息,直到自己想要的那个信息。

二、使用步骤

1.引入Jsoup包

这里以Idea的操作示范:

  1. 创建工程
    我这以创建maven为例,因为可直接在pom.xml中引入依赖。
    大家也可以直接把Jsoup包下载下来,放到lib目录下。

在要创建的位置,右键选择New—>Module。
在这里插入图片描述
选择Maven后,设置好自己的JDK版本,直接Next。
在这里插入图片描述
输入组名和项目名称,直接Next。
在这里插入图片描述
项目名,文件放至位置确认好,直接Finish。
在这里插入图片描述

  1. 在pom.xml中引入Jsoup依赖。
    依赖可从maven仓库中查找 https://mvnrepository.com/tags/maven

搜索在这里插入图片描述


选择
在这里插入图片描述

下载什么版本的Jsoup自己选择,如纠结的话,直接选下载人多的那版就对了哦吼吼。


复制画圈内容。
在这里插入图片描述


将复制的文本直接粘贴到项目的pom.xml中。
在这里插入图片描述


在右侧Maven管理栏点击两个刷新的按钮,直到Dependencies处出现下载好的Jsoup包。
在这里插入图片描述

2.获取信息代码

获取代码步骤:
1.用Jsoup访问网站 得到 Document。
2.通过Document获取Element(元素)信息。
3.通过Element获取 信息。
注意!!!此处操作时,要打你想获取的网页并按F12确定好你要爬取信息的位置。

2.1 访问网站(获取Document)

方法一:

Document document = Jsoup.connect(网站地址).timeout(响应时间单位毫秒).get();

方法二:

Document document = Jsoup.parse(new URL(网站地址), 响应时间单位毫秒);

2.2 通过Document获取Element(元素)信息


方法一:根据"id" 查询 元素 --->返回 Element对象 doucument.getElementById("")
 Element data = document.getElementById("Id名");

方法二:根据"标签" 获取 元素 ---> 返回 Element对象 doucument.getElementsByTag("")
  Element ele = byClass.getElementsByTag("标签名")
<br>

方法三:根据"class" 获取 元素 —> 返回 Element对象
doucument.getElementsClass("")

Elements elementsByClass = data.getElementsByClass("class值");
<br>

方法四:根据"属性" 获取 元素 —> 返回 Element对象
doucument.getElementsByAttribute("")

Elements ele = doucument.getElementsByAttribute("属性值"

doucument.getElementsByAttributeValue("属性名","属性内容")
我最喜欢用的,几乎可以替代上面几种方法。
Elements ele = doucument.getElementsByAttributeValue("属性名","属性内容");

通过网页并按F12确定好你要爬取信息的位置便可看到id,标签,class,属性

2.3 通过Element获取信息

因为Elements 包含很多东西,故一般在这要遍历Elements才能获取里面更小一级的信息。

1.从元素 获取"文本内容"
 element.text()

2.从元素 获取"属性的值"
 element.attr("属性名")
 
3.从元素 获取"所有属性值"
 element.attributes()
   
4.从元素中 获取"classname"
 element.className()
   
5.从元素中 获取"id"
 element.id()
   

2.4 获取到子信息

一般获取到信息之后可以直接输出,或者用数组等方式将他们保存,之后随自己想打印或者怎么样这些数据。


总结

1.需要随时打开想要爬取信息的网页 ,按F12,图片画圈的按钮便可精确想要获取信息的位置。
在这里插入图片描述
2.获取信息的流程,就像剥洋葱一样,一层一层获取的。

这篇流程,是我在工作时比较常用的,当然由通过选择器的方式获取元素,更近一步的内容案例我应该会在下一篇中进行流程总结。


微博热搜榜获取案例

虽然没什么用,但是可以简单练手入门哈哈哈哈哈哈哈哈(说白了,这个简单)

public class ParseWeibo {
    public static void main(String[] args) throws Exception {
       //网站链接,访问, 获取Document
       String url = "https://s.weibo.com/top/summary";
        Document document = Jsoup.parse(new URL(url), 30000);
        //由Document 获取 Element
        Element data = document.getElementById("pl_top_realtimehot");
        //由Element 获取 元素
        Elements elementsByClass = data.getElementsByClass("td-02");
        //遍历所有元素
        for (Element byClass : elementsByClass) {
           //热搜获取标题
            String a = byClass.getElementsByTag("a").text();
            //获取热搜标题的链接
            String herf = byClass.getElementsByTag("a").attr("href");
            System.out.println(a);
            System.out.println(herf);
            System.out.println("===================================");

   }
}

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喂马人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值