java爬虫实战——实现简单的爬取网页数据

最新推荐文章于 2025-03-07 14:56:41 发布

weixin_46214451

最新推荐文章于 2025-03-07 14:56:41 发布

阅读量1.7w

点赞数 34

文章标签： java

本文链接：https://blog.csdn.net/weixin_46214451/article/details/108399904

版权

故事的开头
在这里插入图片描述
虽然我们程序员不干爬虫的活，但是工作中确实偶尔有需要网络上的数据的时候，手动复制粘贴的话数据量少还好说，万一数据量大，浪费时间不说，真的很枯燥。
所以现学现卖研究了一个多小时写出了个爬虫程序

一、爬虫所需要的工具包

新建个Maven项目，导入爬虫工具包Jsoup

		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

在这里插入图片描述

使用Jsoup解析网页

首先要拿到我们请求的网页的地址
用Jsoup的parse()方法解析网页，传入连个参数第一个参数是new URL(url)，第二个参数设置解析时间如果超过30秒就放弃
然后获取到一个Document对象
之后就像我们操作JS代码一样，Document对象可以实现JS的所有操作
在这里插入图片描述
这时候我们用浏览器打开网页，F12审查元素，找到数据所在的div的id名，如果没有id名就用calss名，这里是没有id名的。

然后我们通过class名获取到元素，这时候可以System.out.println(chinajobs);的输出一下看看日否拿到了我们想要的数据