Python爬虫 抓取“中国银行监督委员会”统计信息报告

本文仅用于学习参考:

项目下载链接:

初始url,即如下所示页面在这里插入图片描述
目的:抓取网页中所有的文档标题以及doc,pdf下载链接,以及发布时间,发布日期等信息。

分析流程:
【1】初始页面抓包得返回信息得json请求地址
【2】对数据进行提取过滤
【3】信息整合,构造下一页url,继续重复前三个步骤

本项目简单实现,就不多说了,可以拿去练手。

主要逻辑代码如下图所示:在这里插入图片描述
piplines:在这里插入图片描述
运行截图:在这里插入图片描述
可以看到,速度还是不错的,大约13秒,抓取了55页信息,总计976条数据,并且看到信息也听纯净的。
嗯。。。。。虽然今天过的不太快乐,在不知道导员身份的情况下骂了他的🐎,故做了个简单的数据爬取平静一下心情

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值