文章目录
前言
在工作中需要不定期的从一些网站中获取信息,这里我通常从静态页面获取的方法是用Jsoup,方便快捷。可以解决问题:
1. 想要获取页面的批量数据。
2. 写一次代码即可多次使用,持续更新资源。
3. 抓取信息代码简单。
一、Jsoup是什么?
jsoup是一款Java的HTML解析器,主要用来对HTML解析,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
按我的理解就是层层获取信息,直到自己想要的那个信息。
二、使用步骤
1.引入Jsoup包
这里以Idea的操作示范:
- 创建工程
我这以创建maven为例,因为可直接在pom.xml中引入依赖。
大家也可以直接把Jsoup包下载下来,放到lib目录下。
在要创建的位置,右键选择New—>Module。
选择Maven后,设置好自己的JDK版本,直接Next。
输入组名和项目名称,直接Next。
项目名,文件放至位置确认好,直接Finish。
- 在pom.xml中引入Jsoup依赖。
依赖可从maven仓库中查找 https://mvnrepository.com/tags/maven
搜索
选择
下载什么版本的Jsoup自己选择,如纠结的话,直接选下载人多的那版就对了哦吼吼。
复制画圈内容。
将复制的文本直接粘贴到项目的pom.xml中。
在右侧Maven管理栏点击两个刷新的按钮,直到Dependencies处出现下载好的Jsoup包。
2.获取信息代码
获取代码步骤:
1.用Jsoup访问网站 得到 Document。
2.通过Document获取Element(元素)信息。
3.通过Element获取 信息。
注意!!!此处操作时,要打你想获取的网页并按F12确定好你要爬取信息的位置。
2.1 访问网站(获取Document)
方法一:
Document document = Jsoup.connect(网站地址).timeout(响应时间单位毫秒).get();
方法二:
Document document = Jsoup.parse(new URL(网站地址), 响应时间单位毫秒);
2.2 通过Document获取Element(元素)信息
方法一:根据"id" 查询 元素 --->返回 Element对象 doucument.getElementById("")
Element data = document.getElementById("Id名");
方法二:根据"标签" 获取 元素 ---> 返回 Element对象 doucument.getElementsByTag("")
Element ele = byClass.getElementsByTag("标签名");
<br>
方法三:根据"class" 获取 元素 —> 返回 Element对象
doucument.getElementsClass("")
Elements elementsByClass = data.getElementsByClass("class值");
<br>
方法四:根据"属性" 获取 元素 —> 返回 Element对象
doucument.getElementsByAttribute("")
Elements ele = doucument.getElementsByAttribute("属性值")
doucument.getElementsByAttributeValue("属性名","属性内容")
我最喜欢用的,几乎可以替代上面几种方法。
Elements ele = doucument.getElementsByAttributeValue("属性名","属性内容");
通过网页并按F12确定好你要爬取信息的位置便可看到id,标签,class,属性
2.3 通过Element获取信息
因为Elements 包含很多东西,故一般在这要遍历Elements才能获取里面更小一级的信息。
1.从元素 获取"文本内容"
element.text()
2.从元素 获取"属性的值"
element.attr("属性名")
3.从元素 获取"所有属性值"
element.attributes()
4.从元素中 获取"classname"
element.className()
5.从元素中 获取"id"
element.id()
2.4 获取到子信息
一般获取到信息之后可以直接输出,或者用数组等方式将他们保存,之后随自己想打印或者怎么样这些数据。
总结
1.需要随时打开想要爬取信息的网页 ,按F12,图片画圈的按钮便可精确想要获取信息的位置。
2.获取信息的流程,就像剥洋葱一样,一层一层获取的。
这篇流程,是我在工作时比较常用的,当然由通过选择器的方式获取元素,更近一步的内容案例我应该会在下一篇中进行流程总结。
微博热搜榜获取案例
虽然没什么用,但是可以简单练手入门哈哈哈哈哈哈哈哈(说白了,这个简单)
public class ParseWeibo {
public static void main(String[] args) throws Exception {
//网站链接,访问, 获取Document
String url = "https://s.weibo.com/top/summary";
Document document = Jsoup.parse(new URL(url), 30000);
//由Document 获取 Element
Element data = document.getElementById("pl_top_realtimehot");
//由Element 获取 元素
Elements elementsByClass = data.getElementsByClass("td-02");
//遍历所有元素
for (Element byClass : elementsByClass) {
//热搜获取标题
String a = byClass.getElementsByTag("a").text();
//获取热搜标题的链接
String herf = byClass.getElementsByTag("a").attr("href");
System.out.println(a);
System.out.println(herf);
System.out.println("===================================");
}
}