从pdf文件中获取上市公司行业分类

最新推荐文章于 2024-08-22 23:10:52 发布

zhangcuuuuuu

最新推荐文章于 2024-08-22 23:10:52 发布

阅读量1.9k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zhangcucmb/article/details/83113534

版权

行业分类数据来自证监会数据统计 http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/

import pdfplumber
import json
pdf = pdfplumber.open('./2018年2季度上市公司行业分类结果.pdf') 
pdf1 =pdfplumber.open('./1502.pdf') 
pdf2 =  pdfplumber.open('./1602.pdf')

industry = {}
industry_keys = ['农、林、牧、渔业(A)', '采矿业(B)', '制造业(C)', '电力、热力、燃气及水的生产和供应业(D)', 
'建筑业(E)', '批发和零售业(F)', '交通运输、仓储和邮政业(G)', '住宿和餐饮业(H)', 
'信息传输、软件和信息技术服务业(I)', '金融业(J)', '房地产业(K)', '租赁和商务服务业(L)',
'科学研究和技术服务业(M)', '水利、环境和公共设施管理业(N)', 
'居民服务、修理和其他服务业(O)', 教育(P)', '卫生和社会工作业(Q)', '文化、体育和娱乐业(R)', '综合(S)']
for item in industry_keys:
    industry[item] = []

#返回完整行业门类名称，pdf处理时可能只有一部分名称
def find_key(default_key, industry):
    for key in industry.keys():