使用正则表达式采集整站小说数据

最新推荐文章于 2025-05-01 20:06:47 发布

x201206030

最新推荐文章于 2025-05-01 20:06:47 发布

阅读量395

点赞数

分类专栏： java springboot 文章标签： java 爬虫

本文链接：https://blog.csdn.net/x201206030/article/details/109719186

版权

本文介绍了小说爬虫模块的设计与实现，强调了正则表达式在配置不同网站规则中的作用。通过创建配置文件、抽象类以及特定网站的爬虫源，实现了数据的高效抓取。设计原理中，解释了为何将小说解析与更新操作分开，以避免采集遗漏，确保实时采集小说最新章节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

开源小说漫画系统小说精品屋已经诞生了1年时间了，其间很多同学咨询过我数据抓取的原理，我这里抽出空余时间详细说明一下小说爬虫模块的设计与实现。

爬虫模块设计与实现（多爬虫源配置）

创建application-crawl.yml配置文件，配置不同网站的正则表达式规则。

#爬取的网站名称类型 1：笔趣岛 ，2：笔趣塔, 3:顶点，4:百书斋，5:笔趣阁，6: 笔趣窝，默认百书斋  更多网站解析中，敬请期待
biquta:
  crawlsource:
    index-url: https://m.biquta.la
    list-page-url: https://m.biquta.la/class/{0}/{1}.html
    book-url-pattern: href="/(\d+_\d+)/"
    score-pattern: <div\s+class="score">(\d+\.\d+)分</div>
    book-name-pattern: <p class="title">([^/]+)</p>
    author-pattern: 作者：([^/]+)<
    status-pattern: 状态：([^/]+)</li>
    cat-pattern: 类别：([^/]+)</li>
    update-time-pattern: 更新：(\d+-\d+-\d+\s\d+:\d+:\d+)</a>
    pic-pattern: <img src="([^>]+)"\s+onerror="this.src=
    intro-pattern: class="review">([^<]+)</p>
    catalog-url-pattern: <a\s+href="(/du/\d+_\d+/)">查看完整目录</a>
    catalog-pattern: <a\s+style=""\s+href="(/\d+_\d+/\d+\.html)">([^/]+)</a>
biqudao:
  crawlsource:
    index-url: https://m.biqudao.net
    list-page-url: https://m.biqudao.net/bqgeclass/{0}/{1}.html
    book-url-pattern: href="/(bqge\d+)/"
    score-pattern: <div\s+class="score">(\d+\.\d+)分</div>
    book-name-pattern: <p class="title">([^/]+)</p>
    author-pattern: <li class="author">作者：([^/]+)</li>
    status-pattern: 状态：([^/]+)</li>
    cat-pattern: 类别：([^/]+)</li>
    update-time-pattern: 更新：(\d+-\d+-\d+\s\d+:\d+:\d+)</a>
    pic-pattern: <img src="([^>]+)"\s+onerror="this.src

最低0.47元/天解锁文章