【案例】--(非结构化)文件管理案例

本文探讨了非结构化文件管理的策略,包括文件上传方式、存储方案、文件属性获取、页面定位和内容提取。使用mongodb、GridFS、POI、PDFBox等工具解析文件,并结合OCR技术提高搜索精度。主要代码实现涵盖了小文件、大文件的存储及文件属性获取。
摘要由CSDN通过智能技术生成

一、前言

由于项目需求,会存储大量的非结构化文件,因此对非结构化文件管理是值得思考的问题。结合自身参入项目的方案设计思路,针对“如何管理非结构化文件”,有如下的思考:
(1)、文件上传的方式有哪些?
(2)、完整的文件如何去存储?方便后续的下载、预览等
(3)、文件附属管理信息如何获取?如文件大小、类型、名称、总页数等等
(4)、如何定位到文件具体哪页?如由关键字搜索到属于文件哪一页并且相关数据要输出
(5)、一份文件中有文字、图片、表格等元素信息,如何提取?
(6)、现存在很多类型的文件,哪些类型文件能够解析?

二、问题思考思路

针对上面各个问题,本人基于自身掌握的技术栈提出自己的解决方案。

文件的上传方式?
目前我们常见的文件上传方式:网络url方式下载后存储到本系统服务、前端页面导入方式上传;

完整文件如何存储?
文件存储的目的,是方便进行下载、预览等。因此,这里采用mongodb来存储。当文件小于16MB时,采用BSON方式存储;当文件大于16MB时,采用GridFS。

文件附属管理信息如何获取?
基于用户角度,文件附属信息如文件大小、类型、名称、总页数等等是常见要知道的。对于这些信息,可以借助一些组件来解析文件获取到。
如poi-scratchpad读取PPT、DOC、Visio;poi读取Excel的XLS;poi-ooxml读取Excel的X

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DreamBoy_W.W.Y

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值