Python爬取上交所年报并下载

最新推荐文章于 2024-11-11 13:35:20 发布

谷曰十鑫

最新推荐文章于 2024-11-11 13:35:20 发布

阅读量1.4w

点赞数 20

分类专栏： Python 文章标签：入门 Python 轻便年报财会

本文链接：https://blog.csdn.net/weixin_43636302/article/details/93202006

版权

本文介绍如何使用Python3.6和Pycharm批量下载上海证券交易所的上市公司年报，详细阐述了整个过程，包括所需的准备工作和核心代码，旨在帮助初学者掌握爬虫技巧在财会领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

批量下载上交所年报及相关细节处理

一、使用工具

Python3.6、Pycharm

二、准备工作

import json
import requests
import re
import datetime
import csv 
f=open ('stkcd.csv',mode='w',encoding='gbk',newline='')
writer = csv.writer(f)
head=['stkcd']
writer.writerow(head)

PS:新建csv文件用于记录写入下载公司年报的代码，便于事后检查年报下载是否有遗漏。

三、主要代码

#要下载的年报日期可以根据需要调整，开始日期和结束日期间隔最好不要超过30日#
begin = datetime.date(2019,1,19)
end = datetime.date(2019,6,21)
for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

谷曰十鑫

关注关注

20
点赞
踩
108

收藏

觉得还不错? 一键收藏
34
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Python爬虫抓取企业年报和财报数据

2201_76125261的博客

03-22

1020

随着数据的日益丰富，爬虫技术和数据分析方法的结合将为我们提供更加高效、精准的决策支持。在实际应用中，你可以根据自己的需求扩展数据抓取的目标网站，增加更多的分析维度，优化数据处理流程，提升分析结果的准确性。

【爬虫】用Python爬取公司年报1

热门推荐

bboysteed的博客

01-12

2万+

【目标】爬取公司年报公司列表： bank_list = [ '中信银行', '兴业银行', '平安银行','民生银行', '华夏银行','交通银行', '中国银行', '招商银行', '浦发银行','建设银行',‘平安银行’ ] 网站：巨潮网【实现过程】分析网站接口：查看接口返回数据：选择查询年报：点击搜索，查看接口数据：点击一个...

34 条评论您还未登录，请先登录后发表或查看评论

Python爬取上交所年报下载并转TXT

weixin_43599963的博客

01-15

3785

参考文献： 6小时爬完上交所和深交所的年报问询函 Python爬取上交所年报并下载一、任务描述从上交所官网上爬取年报并转成TXT 二、解决思路 1、解析网页，结合日期获取全部的年报链接，下载PDF 2、读取第一步获取的PDF，并直接转成 TXT 格式的文字三、网页分析 ...

第一次Python爬虫练习，爬取上交所的年报问询函

weixin_42599865的博客

03-05

2075

接下来就是获取该Json文件，同时切换不同的页，发现不同页的Json请求网址，只有Page差异，其他地方相同。通过Chrome开发者工具，访问目标网站，点击不同的JS文件，发现标题及下载链接，存储在一个Json文件下。第一次爬虫，会遇到很多报错，不停的调试，去搜寻其他人分享的解决办法，最终顺利实现第一次爬虫。顺利成功爬取问询函。

【工作提效】教你如何用Python轻松爬取上市公司年报，新手也能快速上手！copy即用

qq_19288625的博客

07-09

7698

利用python抓取上市公司年报，季度报告，问询函等信息，无需代码基础也可以上手即用

巨潮PDF年报下载01——python request库

qq_37639139的博客

04-16

3857

【代码】巨潮PDF年报下载01——python request库。

Python爬取公司年报pdf下载（记录自己踩过的坑）

ganchimaipian的博客

04-06

1047

原因：Python的第三方包往往依赖其它的包进行开发。一旦依赖的包发生较大的版本升级，那么往往会出现兼容性问题，引起编译器警告或报错。报错：xlrd.biffh.XLRDError: Excel xlsx file;not supported……把dict（）改成dict.get()会稳定很多，虽然不清楚原理。解决方法：重新在解释器中下载xlrd，指定旧版本下载。还蛮有成就感的，希望这些经验能够帮到大家：）解决方法：加入两行代码忽略不兼容。原因：xlrd版本过高！

爬完上交所的年报问询函

sinat_30045277的博客

10-23

422

【代码】爬完上交所和深交所的年报问询函。

Python爬取上交所年报下载并转成TXT

weixin_43599963的博客

01-15

3281

参考博客： 6小时爬完上交所和深交所的年报问询函 Python爬取上交所年报并下载一、任务描述从上交所的官网上爬取年报PDF文档，并且转成TXT。二、解决思路 1、解析网页获取年报的文件链接，并下载PDF 2、读取第一步的PDF 数据，并直接转成 TXT 格式的文字三、网页分析 1、数据包位置进入要下载年报的界面，点击查看源码 2、结合日期获得不同的URL链接，但这一步得到的并不是P...

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip

03-05

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息。功能简介目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests--bs4--re 原理分析步骤1：从东方财富网获取...

Python爬取上交所一年大盘数据(1)

2401_83977530的博客

04-01

1256

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

Python 2018 年度报告完整版（麻瓜编程译）

02-14

Python 2018 年度报告完整版（麻瓜编程译）

Python2018年度报告完整版.pdf

05-20

Python2018年度报告完整版.pdf

python分析pdf年报_如何用Python从大量pdf 中提取表格中的数据进行分析？

weixin_39606244的博客

11-28

866

根据一楼答案@森林的建议说说我的处理经验我也是借助开源项目tabula，不得不说tabula的功能确实很强大。我是用Python来处理数据，但是没有用tabula-py，因为表格跨列跨行等情况比较复杂的时候，tabula输出的数据并不能直接拿来用，就是会有错乱的情况。tabula-py只是对tabula-java的一个简易封装，实际上等同于tabula-java。简单贴个tabula适用的表格，...

python爬取上交所的年报显示pdf损坏，大佬看看哪里的问题

最新发布

m0_58883901的博客

11-11

304

【代码】python爬取上交所的年报显示pdf损坏，大佬看看哪里的问题。

python抓取pdf年报_如何用Python写一个抓取新浪财经网指定企业年报的脚本

weixin_39944515的博客

11-26

406

代码如下2113：1). xml可能的中文编码错误处理def xml_Error_C(filename):fp_xml=open(filename)fp_x=''#中文乱5261码改正for i in range(os.path.getsize(filename)):i+=1a=fp_xml.read(1)if a=='&':fp_xml.seek(-1,1)if fp_xml.read(6)==...

利用python怎么爬取pdf文件-上市公司年报

sinat_22331215的博客

05-14

465

以爬取贵州茅台年报为例，python获取pdf文件非常简单。需要注意的是，数据存储是二进制形式，文件保存为.pdf后缀。

python怎么批量下载年报_Python批量下载上交所、深交所年报或半年报并生成年报下载器exe文件...

weixin_39914825的博客

11-23

765

效果预览完整代码import requestsimport csvimport timeimport reimport mathimport osSTART_DATE =input('公布日期from：(xxxx-xx-xx)')END_DATE=input('公布日期to:(xxxx-xx-xx)')OUT_DIR =input('目录文件路径:')OUTPUT_FILENAME = input...

用Python（selenium）爬取重庆统计年鉴信息

积一时之步，臻千里之遥程

04-24

2076

import time,os from selenium import webdriver from lxml import etree import requests def downloads_excel(excel_url, year, name): get_excel = requests.get(str(excel_url)) save_file_path = ...

python爬取年报

07-10

Python爬取年报通常涉及网络抓取技术，特别是使用一些库如BeautifulSoup、Requests、Scrapy等。以下是一个简单的步骤： 1. **导入必要的库**：首先需要安装`requests`库用于发送HTTP请求，以及`beautifulsoup4`或`lxml`库解析HTML内容。 ```python import requests from bs4 import BeautifulSoup ``` 2. **制定URL**：找到目标公司的年报下载链接，这通常会在其官方网站或监管机构的网站上。 3. **发送GET请求**：使用`requests.get()`获取网页内容。 ```python url = "http://example.com/bond_report" # 替换为实际年报链接 response = requests.get(url) ``` 4. **解析HTML**：通过BeautifulSoup解析响应内容，提取年报下载链接或下载按钮对应的元素。 ```python soup = BeautifulSoup(response.text, 'html.parser') report_link = soup.find('a', {'class': '年报下载'})['href'] # 根据实际标签和属性找寻 ``` 5. **下载文件**：如果找到了链接，可以使用`requests`下载文件到本地。 ```python download_url = url + report_link with open("annual_report.pdf", 'wb') as f: response = requests.get(download_url, stream=True) for chunk in response.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk) ``` 6. **处理异常**：确保捕获并处理可能出现的网络错误或页面结构变化。 ```python try: # 爬虫逻辑... except requests.exceptions.RequestException as e: print(f"请求出错: {e}") ```