点赞再看,养成习惯👏👏
Hello 大家好,我是l拉不拉米
,今天又更文了,带来了一份很干的干货。
前言
说起爬虫抓取网页数据,相信大家的第一反应都是 python
,确实 python
天生就适合做这件事,但是很多有多年经验的 Java
开发都不一定知道,其实 Java
也是可以做爬虫的。最出名的就是 Jsoup
网页提取框架。
结缘
很多年前,自己做了一个贵金属资讯类的网站,需要实时展示最新的各类型各交易所的金价、银价等,当时有提供这类数据的第三方 API
接口的服务商,需要付费,后面就百度到 Jsoup
可以抓取网页的数据,然后就找到一个大的网站照着爬了数据,自己再出表格展示在页面,省了一笔钱。
昨晚,心血来潮,想着可以写一篇文章,于是去官网复习了下,决定对贝壳找房下手了😏
Jsoup食用指南
Jsoup 是真的简单,简单到不想介绍开发流程,直接看官网就行了,十分钟搞定其API
官网有入门指南和例子,大家自己去看吧。
官网地址:jsoup.org/
干货
干货部分我会用项目实战的方式,详细讲解,相信通过这个实战的例子,大家都能轻松掌握该技术。
1、准备要抓取的网页
贝壳找房-深圳站-新房:sz.fang.ke.com/loupan/pg
2、新建Maven项目
3、Pom文件添加依赖
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>30.0-jre</version>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</a