利用Jsoup创建属于自己的信息库

最新推荐文章于 2024-09-30 22:02:02 发布

Small-Young

最新推荐文章于 2024-09-30 22:02:02 发布

阅读量368

点赞数

文章标签： html jsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yjc_1111/article/details/54409984

版权

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
今天小杨就以糗事百科（http://www.qiushibaike.com/）为例，爬一爬糗事百科首页的小笑话。创建一个本地的笑话库。
1、首先下载相关的jar包，jsoup.jar。目前最新版本是1.10.2。
官方下载网址：https://jsoup.org/download
2、使用官方API（http://www.open-open.com/jsoup/）获取糗事百科首页的代码。

这里写图片描述

是不是感觉非常简单，此处的doc就是我们获取的页面的源代码，而且jsoup会自动的根据获取的页面的编码格式来进行解码，以保证我们获取的是没有乱码的源代码。
3、下面我们就来解析他首页的源代码吧。
通过小杨观察，糗事百科的笑话全部放在的一个class=content的div下面的span里面。

这里写图片描述

然后我们根据API来解析吧

这里写图片描述

小杨用的是图片红框里标注的两个方式，这些都是可以组合使用的。是不是感觉和jQuery选择器那么相似呢。

这里写图片描述

4、然后就让我解析一下这个mastheads吧。我们在这里获取的class为content的div下面的span对象

这里写图片描述

打印出来是不是感觉多了好多没有用的span标签呢，这是因为这是这个span对象，这是一个对象，不是内容呦。我们可以通过html()方法获取文本内容。

这里写图片描述

这里写图片描述

5、至此，我们就获取的糗事百科首页的小笑话集合，是不是感觉超简单呢。赶紧来试试吧。小杨把它封装到了List容器里面。贴上完整的代码。希望对大家有帮助。

这里写图片描述

======================

这里写图片描述

欢迎大家关注公众号，目前公众号根据Jsoup已经实现了从某网站扒取下载链接的功能，目前正在试运行，小杨认为该视频网站的更新速度还是蛮不错。大家可以关注公众号体验。

看视频就找我，看视频就找我，看视频就找我！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。