我写的爬虫都是给自己用,或者是懂程序的朋友、同事用,一直没有一个容易给人使用的界面,我准备给爬虫写一个前端展示页面,用的架构是spring boot+vue 。
刚把整站采集写完了。 整站采集,就是面对新闻网站,你需要采集整个网站的信息,这个网站的页面又拥有多个页面格式,用css xpath配置比较麻烦。
比如我监控了几百家国内网站的数据,我要取得内容、标题,我只需要配置一个正则表达式就可以。
比如https://www.fox34.com/ 这个网站,我需要网站网址符合表达式 https://www.fox34.com/news/.*-.*-.*-.*-.* ,几分钟就可以配置完成。
我的监控列表里几百家网站,我轻轻松松就可以维护。
我还可以配置抓取的深度,如果增量爬取,一个网站很快就能够爬取完成。