jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
今天小杨就以糗事百科(http://www.qiushibaike.com/)为例,爬一爬糗事百科首页的小笑话。创建一个本地的笑话库。
1、首先下载相关的jar包,jsoup.jar。目前最新版本是1.10.2。
官方下载网址:https://jsoup.org/download
2、使用官方API(http://www.open-open.com/jsoup/)获取糗事百科首页的代码。
是不是感觉非常简单,此处的doc就是我们获取的页面的源代码,而且jsoup会自动的根据获取的页面的编码格式来进行解码,以保证我们获取的是没有乱码的源代码。
3、下面我们就来解析他首页的源代码吧。
通过小杨观察,糗事百科的笑话全部放在的一个class=content的div下面的span里面。
然后我们根据API来解析吧
小杨用的是图片红框里标注的两个方式,这些都是可以组合使用的。是不是感觉和jQuery选择器那么相似呢。
4、然后就让我解析一下这个mastheads吧。我们在这里获取的class为content的div下面的span对象
打印出来是不是感觉多了好多没有用的span标签呢,这是因为这是这个span对象,这是一个对象,不是内容呦。我们可以通过html()方法获取文本内容。
5、至此,我们就获取的糗事百科首页的小笑话集合,是不是感觉超简单呢。赶紧来试试吧。小杨把它封装到了List容器里面。贴上完整的代码。希望对大家有帮助。
======================
欢迎大家关注公众号,目前公众号根据Jsoup已经实现了从某网站扒取下载链接的功能,目前正在试运行,小杨认为该视频网站的更新速度还是蛮不错。大家可以关注公众号体验。
看视频就找我,看视频就找我,看视频就找我!!!