xlsx和xls表格解析之跨列情况

 采集过程碰见难搞的跨行跨列问题,先把简单点的代码丢这里,后面思考框架该怎么做

 

 xls情况

workbook = xlrd.open_workbook('anqing.xls')
sheet = workbook.sheet_by_name('Sheet1')
key_row_index = ''
for row_index in range(sheet.nrows):
    if '纳税人名称' in sheet.row_values(row_index):        #命中关键词标题,记录下来
          key_row_index = row_index            
          break
header = sheet.row_values(key_row_index)
row = sheet.row_values(key_row_index+1)                    #读跨行的第二行标题
combined_header = [h1 or h2 for h1, h2 in zip(header, row)]#并集合并列表,形成完整的属性列表
row_lst = []
example_dicts = []
tax_fields = ['xx税', 'xx税', 'xx税']
for index in range(key_row_index+2,sheet.nrows):
    row = sheet.row_values(index)
    row_dict = {combined_header[i]: row[i] for i in range(len(combined_header)) if row[i] != ''}                #根据属性列表的索引来获取每一行的字典
    example_dicts.append(row_dict)
split_dicts = []
for d in example_dicts:#遍历每一行形成的字典
    for tax in tax_fields:#遍历关键词命中
        if tax in d:
           new_dict = {k: d[k] for k in d if k not in tax_fields or k == tax}#创建字典
           split_dicts.append(new_dict)
for split_dict in split_dicts:
    print(split_dict)

xlsx情况

workbook = openpyxl.load_workbook('hainan.xlsx')
sheet = workbook['排序版']
key_row_index = ''
for row in sheet.iter_rows():
    if '纳税人名称' in [cell.value for cell in row]:
        key_row_index = row[0].row
        break
header1 = [cell.value for cell in sheet[key_row_index]]
header2 = [cell.value for cell in sheet[key_row_index+1]]
combined_header = [h1 or h2 for h1, h2 in zip(header1, header2)]
tax_fields = ['xx税', 'xx税', 'xx税']
for row in sheet.iter_rows(min_row=key_row_index+2, values_only=True):
    row_dict = {k: v for k, v in zip(combined_header, row) if v is not None and v != ''}
    example_dicts.append(row_dict)
split_dicts = []
for d in example_dicts:
    for tax in tax_fields:
        if tax in d:
            new_dict = {k: d[k] for k in d if k not in tax_fields or k == tax}
            split_dicts.append(new_dict)
for split_dict in split_dicts:
    print(spilt_dict)

在Vue中预览docx、doc、pdf、xlsxlsx文件,可以使用第三方库来实现。 对于docx、doc、xlsxlsx文件,可以使用`js-xlsx`库来进行解析预览。该库可以将Excel文件转换为JSON格式,而对于Word文件,可以使用`docx.js`库来进行解析预览。 对于pdf文件,可以使用`pdf.js`库来进行预览。该库可以通过Canvas将PDF文件渲染成图片,然后在Vue中显示。 下面是一个示例代码,演示如何使用上述库来预览不同类型的文件: ```html <template> <div> <div v-if="fileType === 'docx' || fileType === 'doc'"> <div v-html="docContent"></div> </div> <div v-else-if="fileType === 'xls' || fileType === 'xlsx'"> <table> <tr v-for="row in excelData"> <td v-for="cell in row">{{ cell }}</td> </tr> </table> </div> <div v-else-if="fileType === 'pdf'"> <canvas ref="pdfCanvas"></canvas> </div> </div> </template> <script> import XLSX from 'xlsx'; import Docx from 'docx'; import pdfjsLib from 'pdfjs-dist'; export default { data() { return { fileType: '', docContent: '', excelData: [], }; }, mounted() { // 根据文件类型进行解析预览 if (this.fileType === 'docx' || this.fileType === 'doc') { const reader = new FileReader(); reader.onload = (event) => { const content = event.target.result; const doc = new Docx(); doc.load(content); this.docContent = doc.getHtml(); }; reader.readAsArrayBuffer(this.file); } else if (this.fileType === 'xls' || this.fileType === 'xlsx') { const reader = new FileReader(); reader.onload = (event) => { const content = event.target.result; const workbook = XLSX.read(content, { type: 'array' }); const sheetName = workbook.SheetNames[0]; const worksheet = workbook.Sheets[sheetName]; this.excelData = XLSX.utils.sheet_to_json(worksheet, { header: 1 }); }; reader.readAsArrayBuffer(this.file); } else if (this.fileType === 'pdf') { const canvas = this.$refs.pdfCanvas; const ctx = canvas.getContext('2d'); pdfjsLib.getDocument(this.file).promise.then((pdf) => { pdf.getPage(1).then((page) => { const viewport = page.getViewport({ scale: 1.5 }); canvas.height = viewport.height; canvas.width = viewport.width; page.render({ canvasContext: ctx, viewport, }); }); }); } }, props: { file: { type: File, required: true, }, }, created() { // 根据文件后缀名判断文件类型 const fileExtension = this.file.name.split('.').pop(); if (fileExtension === 'docx' || fileExtension === 'doc') { this.fileType = 'docx'; } else if (fileExtension === 'xls' || fileExtension === 'xlsx') { this.fileType = 'xls'; } else if (fileExtension === 'pdf') { this.fileType = 'pdf'; } }, }; </script> ``` 在上述代码中,根据文件后缀名判断文件类型,然后使用不同的库进行解析预览。对于Word文件,使用`docx.js`库将文件解析为HTML格式,然后在Vue中显示;对于Excel文件,使用`js-xlsx`库将文件解析为JSON格式,然后在Vue中生成表格;对于PDF文件,使用`pdf.js`库将文件渲染成图片,然后在Vue中显示。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰吸生椰拿铁.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值