行业分类数据来自证监会数据统计 http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/
import pdfplumber
import json
pdf = pdfplumber.open('./2018年2季度上市公司行业分类结果.pdf')
pdf1 =pdfplumber.open('./1502.pdf')
pdf2 = pdfplumber.open('./1602.pdf')
industry = {}
industry_keys = ['农、林、牧、渔业(A)', '采矿业(B)', '制造业(C)', '电力、热力、燃气及水的生产和供应业(D)',
'建筑业(E)', '批发和零售业(F)', '交通运输、仓储和邮政业(G)', '住宿和餐饮业(H)',
'信息传输、软件和信息技术服务业(I)', '金融业(J)', '房地产业(K)', '租赁和商务服务业(L)',
'科学研究和技术服务业(M)', '水利、环境和公共设施管理业(N)',
'居民服务、修理和其他服务业(O)', 教育(P)', '卫生和社会工作业(Q)', '文化、体育和娱乐业(R)', '综合(S)']
for item in industry_keys:
industry[item] = []
#返回完整行业门类名称,pdf处理时可能只有一部分名称
def find_key(default_key, industry):
for key in industry.keys():