Python爬虫抓取“中国银行监督委员会”统计信息报告

最新推荐文章于 2025-04-11 12:12:08 发布

Caiden_Micheal

最新推荐文章于 2025-04-11 12:12:08 发布

阅读量2.4k

点赞数 3

分类专栏： Python爬虫文章标签： python爬虫 python

Caiden_Micheal 博客链接：https://blog.csdn.net/weixin_44449518

本文链接：https://blog.csdn.net/weixin_44449518/article/details/104317833

版权

Python爬虫专栏收录该内容

8 篇文章

订阅专栏

本文仅用于学习参考：

项目下载链接：

下载方式一：腾讯微云【密码：54250p】
下载方式二：github

初始url，即如下所示页面 在这里插入图片描述
目的：抓取网页中所有的文档标题以及doc，pdf下载链接，以及发布时间，发布日期等信息。

分析流程：
【1】初始页面抓包得返回信息得json请求地址
【2】对数据进行提取过滤
【3】信息整合，构造下一页url，继续重复前三个步骤

本项目简单实现，就不多说了，可以拿去练手。

主要逻辑代码如下图所示：在这里插入图片描述
piplines：
运行截图：
可以看到，速度还是不错的，大约13秒，抓取了55页信息，总计976条数据，并且看到信息也听纯净的。
嗯。。。。。虽然今天过的不太快乐，在不知道导员身份的情况下骂了他的🐎，故做了个简单的数据爬取平静一下心情

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Caiden_Micheal

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫(90)】以Python爬虫为眼，洞察金融科技监管风云

邓邓子的博客

02-26

733

本文聚焦爬虫技术在金融科技监管中的应用。开篇阐述金融科技发展带来监管挑战，引出爬虫技术的重要性。接着介绍金融科技监管政策与合规要求，包括政策法规体系、合规细则及政策变化应对。随后探讨爬虫技术选型、数据监测策略、风险指标抓取及案例实操。还阐述基于爬虫数据构建风险预警与防控机制，含模型构建、阈值设定等。最后总结爬虫技术应用成果，展望其与人工智能融合、适应新监管需求及重视数据安全的未来发展趋势。

Python 爬虫实战：在银行官网抓取贷款利率信息，对比不同银行政策

u014481728的博客

02-03

1261

通过本文的 Python 爬虫实战，我们成功抓取了银行官网的贷款利率数据，并进行了数据分析和可视化。通过爬虫技术，我们可以快速获取大量的贷款利率信息，通过数据分析，可以洞察不同银行的贷款利率政策和市场趋势。在实际应用中，可以根据需求进一步扩展爬虫功能，例如抓取更多维度的数据、进行更深入的数据挖掘和分析等。

1 条评论您还未登录，请先登录后发表或查看评论

【爬虫项目-1】国家市场监督管理总局公开信息爬取

qq_44634728的博客

03-20

1236

国家市场监督管理总局公开信息获取

Python爬虫爬取保监会披露信息

weixin_42874091的博客

03-22

3008

Python爬虫爬取保险业协会披露信息由于导师要求，需要下载保险业协会官网-信息披露中相关科目保险公司披露的pdf。中国保险行业协会点击不同的科目，如保险公司年度信息披露，我们发现页面的url并没有发生变化。这时我们应该合理怀疑页面采取了某些异步(XHR/JS)的方式。打开开发者工具，在Network中勾选ALL，清空后点击我们要选取的科目，如关联交易合并披露。可以看到红框中标示出来的是...

使用pyhon爬取中国银行保险监督管理委员会的保险许可证

nixiak的博客

11-18

2308

import requests import json import time import random import math from retry import retry address_list = ['临沂市', '南宁市', '保定市', '廊坊市', '阜阳市', '蚌埠市', '滁州市', '马鞍山市', '芜湖市', '安庆市', '六安市', '莆田市', '漳州市', '宁德市', '清远市', '潮州市', '汕头市', '揭阳市', '江门市', '肇庆市', '湛江市', '

爬虫Scrapy框架学习（四）-中国保险监督委员会爬取案例

宋建国的博客

03-31

1575

本案例使用的框架为CrawlSpider框架，与传统Spider框架相比能够快速的实现页面跳转的功能，且本案例描述了随机替换User-Agent的“反反”爬虫思想，值得读者细心研究。使用scrapy genspider –t crawl cf “circ.gov.cn”创建爬虫 1.项目框架展示 2.项目爬取网页展示 3.cf.py文件 # -*- coding: utf-8 -*- i...

【python爬虫】爬取深圳证券业协会公布的营业部数据并对pdf文件进行解析

abylee的博客

03-01

1481

假装目录有用背景抓包导入第三方库爬虫代码pdf解析完整代码背景深圳证券业协会网站公布了辖区内所有证券营业部的股基交易量、净利润、营收数据，免登录就能查看，我们需要获取这部分数据，由于都是pdf文件，所以首先得爬虫获取pdf文件到本地然后对pdf文件进行解析和数据处理。网页链接抓包抓包的实例我之前的文章介绍了很多次了。这回我直接把找到需要的参数展示一下： data = {'typeid':18,'pagesize':40,'pageno':1} 导入第三方库 import pandas as p

python爬取交通违法记录_【python爬虫】请问如何抓取深交所的处罚信息链接？

weixin_39751195的博客

11-29

246

问题描述初学Python,目标是批量抓取深交所网站上的处罚详情，内容为带‘.pdf’的一个链接。网页（http://www.szse.cn/disclosure...）和对应的源码如下：问题出现的环境背景及自己尝试过哪些方法刚开始写的代码如下：from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen('h...

财务+python+中国银行汇率爬虫下载

07-05

在技术实现方面，这个程序主要使用了Python语言，并结合了网络爬虫技术和数据处理库。为了确保数据的可靠性，程序还包含了错误处理和数据验证的机制网站地址：...

Python 爬虫抓取网站汇率并将结果保存到文件

nv5988的博客

05-08

2355

抓取网页内容保存到本地效果：代码实现如下： import requests from bs4 import BeautifulSoup url='http://fx.cmbchina.com/hq/' res=requests.get(url) content=res.text soup=BeautifulSoup(content,'html.parser') all_ccy=soup.find_all(id='realRateInfo') ccy_table=[] for ..

抓取中国银行汇率信息.txt

02-20

抓取中国银行汇率信息

Python 爬虫教程：如何抓取金融数据（银行、投资网站的金融数据）

最新发布

2201_76125261的博客

04-11

812

在本文中，我们将详细介绍如何使用 Python 爬虫抓取金融数据，包括但不限于银行汇率、股市行情、基金数据以及宏观经济数据等。我们将使用最新的爬虫技术，通过实际的代码示例帮助你掌握抓取金融数据的技能。我们通过实战示例演示了如何抓取静态网页和动态加载的数据，并将抓取的数据进行存储和分析。在实际应用中，抓取金融数据需要遵循相关法律法规，确保数据抓取行为的合规性。在抓取金融数据时，我们需要注意数据源的合法性和合规性。我们将在本文中抓取金融网站的具体数据，结合静态网页和动态加载页面，展示如何有效获取金融数据。

证监会行政处罚决定书爬取，从框架源代码获取url， requests 访问 xpath提取

又尔小风

08-17

4425

证监会行政处罚决定书为证监会发布的对证券期货市场违法违规主体进行行政处罚的相关文书。可以将这些文书按照所涉及的行为进行分类，如涉嫌财务造假、市场操纵、未尽勤勉职责等，作为相应标签下的黑样本进一步进行其他研究。本文将尝试对这些行政处罚决定书进行爬取以格式化存储。

12 | 爬取信用中国，里面的行政许可内容，行政处罚，守信激励的内容

微信号：RunsenLiu

08-25

4087

第一个作业就是信用中国里面能够输入一个公司，输出里面的行政许可内容，行政处罚，守信激励，失信惩戒，重点关注，资质资格，风险提示，其他。里面的内容，并以excel形式显示。最近爬取了信用中国，输出里面的行政许可内容，行政处罚，守信激励的内容，并以excel形式显示。网址：https://www.creditchina.gov.cn/就比如查询：国网江苏省电力有限公司江阴市供电分公司。下面是我写的爬代码，逻辑不写了。爬取的结果如下所示。

爬取信用中国里面的行政处罚

qq_42863025的博客

05-21

1044

result字段名为行政处罚文书号、处罚决定日期、处罚内容、处罚金额、违法事实、处罚机关、公司名称，行政处罚次数。file_path=r'E:\Data analyze\python\行政处罚爬虫/'#路径需要按实际修改。writer = pd.ExcelWriter('统计.xlsx')# 写入Excel文件。src_workbook=file_path+r'行政处罚（名单）.xls' #表格名称也要更改。# keyword = input("输入爬取的公司全称必须是全称")

Python爬虫爬取ajax动态加载页面——证监会法规爬取

Ry_rookie的博客

01-21

5118

Python爬虫爬取ajax动态加载页面——证监会法规爬取最近自学了一些爬虫方面的知识，正好寒假实习，老板让我把证监会的法规都爬下来，现学现用 -.- 1. 所用工具 python3.7 request库 re库 time库 docx库 webdriver（可选） 2. 网页分析首先放上网页url：https://neris.csrc.gov.cn/falvfagui/...

证监会处罚公告爬取

Norni的博客

05-23

712

域名：http://www.csrc.gov.cn/pub/zjhpublic/3300/3313/index_7401.htm # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule im...

用Python脚本自动采集金融网站当天发布的免费报告

pdcfighting的博客

07-20

1014

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤其间旦暮闻何物？杜鹃啼血猿哀鸣。大家好，我是皮皮。一、前言前几天在Python群【林生】问了一个Python数据采集的问题，需求如下：想写一个脚本能自动采集下载当天发布的这个页面的这几个免费报告，能保存成这个标题的pdf文件，网站是手机号注册就能下载这些文件的，就是在我注册登录状态下，...

Python爬虫 抓取“中国银行监督委员会”统计信息报告

Python爬虫抓取“中国银行监督委员会”统计信息报告