使用正则表达式采集整站小说数据

本文介绍了小说爬虫模块的设计与实现,强调了正则表达式在配置不同网站规则中的作用。通过创建配置文件、抽象类以及特定网站的爬虫源,实现了数据的高效抓取。设计原理中,解释了为何将小说解析与更新操作分开,以避免采集遗漏,确保实时采集小说最新章节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

开源小说漫画系统小说精品屋已经诞生了1年时间了,其间很多同学咨询过我数据抓取的原理,我这里抽出空余时间详细说明一下小说爬虫模块的设计与实现。

爬虫模块设计与实现(多爬虫源配置)

  1. 创建application-crawl.yml配置文件,配置不同网站的正则表达式规则。
#爬取的网站名称类型 1:笔趣岛 ,2:笔趣塔, 3:顶点,4:百书斋,5:笔趣阁,6: 笔趣窝,默认百书斋  更多网站解析中,敬请期待
biquta:
  crawlsource:
    index-url: https://m.biquta.la
    list-page-url: https://m.biquta.la/class/{0}/{1}.html
    book-url-pattern: href="/(\d+_\d+)/"
    score-pattern: <div\s+class="score">(\d+\.\d+)分</div>
    book-name-pattern: <p class="title">([^/]+)</p>
    author-pattern: 作者:([^/]+)<
    status-pattern: 状态:([^/]+)</li>
    cat-pattern: 类别:([^/]+)</li>
    update-time-pattern: 更新:(\d+-\d+-\d+\s\d+:\d+:\d+)</a>
    pic-pattern: <img src="([^>]+)"\s+onerror="this.src=
    intro-pattern: class="review">([^<]+)</p>
    catalog-url-pattern: <a\s+href="(/du/\d+_\d+/)">查看完整目录</a>
    catalog-pattern: <a\s+style=""\s+href="(/\d+_\d+/\d+\.html)">([^/]+)</a>
biqudao:
  crawlsource:
    index-url: https://m.biqudao.net
    list-page-url: https://m.biqudao.net/bqgeclass/{0}/{1}.html
    book-url-pattern: href="/(bqge\d+)/"
    score-pattern: <div\s+class="score">(\d+\.\d+)分</div>
    book-name-pattern: <p class="title">([^/]+)</p>
    author-pattern: <li class="author">作者:([^/]+)</li>
    status-pattern: 状态:([^/]+)</li>
    cat-pattern: 类别:([^/]+)</li>
    update-time-pattern: 更新:(\d+-\d+-\d+\s\d+:\d+:\d+)</a>
    pic-pattern: <img src="([^>]+)"\s+onerror="this.src
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值