如何保留PDF里的表格、跨页拼接?

本文介绍了三种方法来处理PDF中的表格,包括使用Python的PDF解析包Py PDF Parser进行信息抽取,利用unet进行文档表格自动检测和重建,以及通过OCR Table识别包含表格的扫描图片中的表格和文字。
摘要由CSDN通过智能技术生成

最近有没有好用的解析pdf的开源项目?能够解析保留pdf里表格,并且能够跨页拼接。或者强力的ocr项目,能够识别表格?

当然!图灵君为大家收集了以下三种方法:

1、用于从结构化PDF文档中抽取信息的PDF解析包(Python)

《Py PDF Parser - a tool to help extracting information from structured PDFs'》by Jake Stockwin

GitHub:

https://github.com/jstockwin/py-pdf-parser

2、用unet实现对文档表格的自动检测,表格重建

GitHub:

https://github.com/chineseocr/table-ocr

建议收藏 | 如何保留PDF里的表格、跨页拼接?

 

建议收藏 | 如何保留PDF里的表格、跨页拼接?

 

建议收藏 | 如何保留PDF里的表格、跨页拼接?

 

3、从包含表格的扫描图片中识别表格和文字

《OCR Tab

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为您提供一份样例代码,您可以参考一下: HTML代码: ```html <!DOCTYPE html> <html> <head> <title>文件上传</title> </head> <body> <form action="upload.php" method="post" enctype="multipart/form-data"> <label for="file">选择文件:</label> <input type="file" name="file[]" id="file" multiple><br><br> <input type="submit" name="submit" value="上传"> </form> <table border="1"> <tr> <th>文件名</th> <th>大小</th> <th>预览</th> <th>下载</th> </tr> <?php $folder = "uploads/"; if(is_dir($folder)){ if($handle = opendir($folder)){ while(($file = readdir($handle)) !== false){ if($file != "." && $file != ".."){ $file_size = filesize($folder.$file); $file_size = round($file_size/1024, 2)." KB"; echo '<tr>'; echo '<td>'.$file.'</td>'; echo '<td>'.$file_size.'</td>'; echo '<td><a href="uploads/'.$file.'" target="_blank">预览</a></td>'; echo '<td><a href="uploads/'.$file.'" download>下载</a></td>'; echo '</tr>'; } } closedir($handle); } } ?> </table> </body> </html> ``` PHP代码: ```php <?php if(isset($_FILES['file'])){ $errors = array(); $file_names = array(); $total_size = 0; foreach($_FILES['file']['tmp_name'] as $key => $tmp_name){ $file_name = $_FILES['file']['name'][$key]; $file_size = $_FILES['file']['size'][$key]; $file_tmp = $_FILES['file']['tmp_name'][$key]; $file_type = $_FILES['file']['type'][$key]; if($file_size > 2097152){ $errors[] = '文件大小不能超过2MB'; } $allowed_ext = array('pdf', 'doc', 'docx'); $file_ext = pathinfo($file_name, PATHINFO_EXTENSION); if(!in_array($file_ext, $allowed_ext)){ $errors[] = '只允许上传PDF、DOC或DOCX文件'; } if(empty($errors) == true){ $upload_dir = "uploads/"; if(is_dir($upload_dir) == false){ mkdir("$upload_dir", 0700); } if(move_uploaded_file($file_tmp, $upload_dir.$file_name)){ $file_names[] = $file_name; $total_size += $file_size; } } } if(empty($errors)){ echo '<script>alert("已成功上传文件!");</script>'; }else{ foreach($errors as $error){ echo $error.'<br>'; } } } ?> ``` 注意事项: 1. 上传的文件会被保存到 "uploads/" 目录下。 2. 预览和下载链接都是直接使用文件名拼接出来的,因此请注意上传的文件名不要包含特殊字符,如空格、中文等。 3. 可以根据需要调整文件大小和类型限制的值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值