目录 一、前言 二、问题思考思路 三、主要代码实现 1、小文件存储 2、大文件存储 3、常见文件属性获取 四、基本的文件提取 1、pdf文件文字提取 2、docx文件文字提取 3、Excel文件(xlsx、xls)文字提取 4、(pptx、ppt)文字提取 五、OCR识别文件提取 一、前言 由于项目需求,会存储大量的非结构化文件,因此对非结构化文件管理是值得思考的问题。结合自身参入项目的方案设计思路,针对“如何管理非结构化文件”,有如下的思考: (1)、文件上传的方式有哪些? (2)、完整的文件如何去存储