Java爬虫
文章平均质量分 87
学语言编程可能多少都听过Python的简单、高效以及丰富的库,这些是一些新手入门爬虫的最佳选择。但是我一个学Java的就不配爬了吗?本专栏以实战为例,给大家带来一段Java爬虫之旅。
他 他 = new 他()
毕业于内蒙古科技大学(包头师范学院),本科,大学专业计算机科学与技术,毕业之后从事Java开发,虽然我是18年毕业的,但是入行之后有很多前辈带着一起走,工作之余学到了很多学校接触不到的东西,在这里分享给大家
展开
-
手把手Java爬虫教学 - 8. 项目2 - 数据库表设计 & 爬虫代码实现
我们这里需要设计两张表,一个是期刊表,还有一个是文章表;首先是期刊表的字段:发行年份、第几期、请求地址、记录日期;然后是文章表的字段:文章code、期刊id、文章类型、请求地址、文章标题、作者、内容、记录日期;二、爬虫代码实现爬虫代码实现和之前的爬博客代码类似,所以我会省略很多代码,详细代码可以去我的 Git 仓库拉取。我们博客爬取是每 20 分钟爬取一次,但是这个文章却不用,它每半个月才会去更新一次~,这里我是让他每天凌晨 2 点更新一次。@Scheduled(cron = "0 0 2 * *原创 2022-07-04 15:34:38 · 739 阅读 · 0 评论 -
手把手Java爬虫教学 - 7. 项目2 - 分析页面 & 需求分析
上一讲我们把第一个爬虫项目讲完了,接下来我们看第二个要爬取的网页:意林在线阅读_意林杂志网一、分析页面可以看到,它这个网站页面还是很规律的,每一年都是 24 期,然后通过审查元素我们可以发现,每一期都是一个 a 标签,这个很方便我们获取元素、操作。接着我们随便点进去一期。我们通过审查元素,可以发现,它里面的模块也是非常规律的。每一个模块都是由一个 dl 包裹,里面的 dt 就是模块的名称,然后下面的 dd 就是每一个文章的题目。然后我们随便点进一篇文章中。同样,里面的文章都是在一个 class 是 blkC原创 2022-06-14 22:40:02 · 325 阅读 · 1 评论 -
手把手Java爬虫教学 - 6. 项目1 - 保存爬取记录(作者 & 博客)
保存爬取到的博客作者、博客内容至数据库原创 2022-06-10 19:21:02 · 276 阅读 · 0 评论 -
手把手Java爬虫教学 - 2. 爬虫项目创建 & 需求说明
上一篇博客我们简单的了解了一波爬虫,知道了什么是爬虫,爬虫的作用,下面我们就开始着手自己来创建一个爬虫。(项目源码估计你们得看最后的几个博客,因为我这个是一边写代码一边写博客的,所以说没有办法那么快提供给大家源码,但是可以先提供 Git 地址)项目源码 Git 地址:一、项目需求简单说一下我们这个项目是干啥的,不了到最后做完也不知道干了点啥,那不完蛋?我这里是想通过爬虫采集一些博客的数据,采集好数据之后,想着后期把这些采集到的数据都扔在 es 里(es:elasticsearch,一种分布式原创 2022-06-01 09:26:30 · 733 阅读 · 0 评论 -
手把手Java爬虫教学 - 5. 项目1 - Jsoup 解析 html 页面
我们上一讲已经拿到了完整的 html 页面,这一讲我们来对我们要爬取的页面进行分析,然后去读取相应的数据一、页面分析打开我们要爬的页面,然后鼠标右键,选择检查不难发现,我们要爬取的内容,都在一个 id 为 post_list 的 div 块中,也就是说,我们要先拿到这个 div。接着再来看每一个博客都是扔在了 article 标签中,那也就是说我们再去拿这个标签,然后里面有各种 div、a、span 标签,这些里面有我们需要的内容,解析这些内容即可。总的来说其实还是比较容易的,现在我们来通过代码进行实现~二原创 2022-06-02 16:36:07 · 1214 阅读 · 1 评论 -
手把手Java爬虫教学 - 4. 项目1 - htmlunit 页面爬取数据
一、功能详解我们先来规划一下程序。这里我是想每隔一段时间,自动去网站抓取一波数据。在抓取的过程中可能会抓取到重复的博客,这里我有两种想法:1. 如果碰到相同博客,更新博客;如果不相同,就去新增;2. 如果碰到一个重复的,就认为后面的都是重复的,直接停止任务;经过琢磨,第一种方式绝对不可取,因为我们抓取的上限是 200 页,这要是每次都抓 200 也数据,那不得疯了;所以我们使用第二种;废话不多说,直接上代码~二、代码实现这里我们用到了定时任务,因为 Spring 自己就带了这个东西,所以我也就没有引用 jd原创 2022-06-02 15:10:47 · 1077 阅读 · 0 评论 -
手把手Java爬虫教学 - 3. 项目1 - 分析页面 & 数据库建表
我们上一讲已经将项目的大体搭建起来了,接下来我们来分析一下我们将要爬取的第一个网站:博客园 - 开发者的网上家园(!!!样子变了很多,最起码我当时写测试代码的时候样子不是这个样子,而且我写测试代码到我写博客就间隔了几天而已,哈呀一)我们爬虫主要爬的是中间的着一块区域,要爬取的内容有:博客标题、简介、博客创建时间、用户头像、用户名称这些内容。每次打开页面可以展示 20 条博客记录,最多可以展示 200 页,这也就是说,我们最多可以爬 4000 条数据,后面根据增量往我们数据库更新即可。然后就是怎么爬这些数据,原创 2022-06-01 17:25:07 · 343 阅读 · 0 评论 -
手把手Java爬虫教学 - 1. 了解爬虫
一、什么是爬虫先来看一下百度百科,了解一下爬虫~我们通过爬虫主要的目的就是爬取数据,好比 A 网站、B 网站有我们所需要的内容,但是这两个网站并没有给我们提供接口,那我们怎么能拿到上面的数据呢?这时候我们就可以通过爬虫对相关页面进行爬取,将我们需要的数据爬取出来。二、爬虫的作用爬虫除去上面那种比较简单的采集数据之外,还有很多作用,来看一下:1. 自动化测试(Selenium)2. 漏洞扫描当然,我用爬虫就是为了做数据采集。三、爬虫分类1. 通用网络爬虫通用网络原创 2022-05-27 18:55:12 · 1476 阅读 · 0 评论