从pdf文件中获取上市公司行业分类

行业分类数据来自证监会数据统计 http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/

import pdfplumber
import json
pdf = pdfplumber.open('./2018年2季度上市公司行业分类结果.pdf') 
pdf1 =pdfplumber.open('./1502.pdf') 
pdf2 =  pdfplumber.open('./1602.pdf')

industry = {}
industry_keys = ['农、林、牧、渔业(A)', '采矿业(B)', '制造业(C)', '电力、热力、燃气及水的生产和供应业(D)', 
'建筑业(E)', '批发和零售业(F)', '交通运输、仓储和邮政业(G)', '住宿和餐饮业(H)', 
'信息传输、软件和信息技术服务业(I)', '金融业(J)', '房地产业(K)', '租赁和商务服务业(L)',
'科学研究和技术服务业(M)', '水利、环境和公共设施管理业(N)', 
'居民服务、修理和其他服务业(O)', 教育(P)', '卫生和社会工作业(Q)', '文化、体育和娱乐业(R)', '综合(S)']
for item in industry_keys:
    industry[item] = []

#返回完整行业门类名称,pdf处理时可能只有一部分名称
def find_key(default_key, industry):
    for key in industry.keys():
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值