在web项目中,我们通常会上传文件到服务器,这时就会对上传文件的类型进行判断,最简单的就是对文件的后缀名进行判断,但是,但某些用户恶意修改文件后缀时,这种方法就无法对其进行拦截。所以我们应该使用tika来对文件的类型进行判断,tika是判断文件的魔术字节来对文件类型进行判断的。
之前的博客已经解释了tika如何使用,接下来说一下使用tika中遇到的一些坑。
上一篇博客
第一个就是对于微软的xls和doc跟其他的xls与doc的mine type是不同的
第二个就是tika会把xlsx与docx mine type解析为zip的mine type类型,这个的原因看了大佬的博客理解了一点 大佬博客
第三就是对于空的doc文件,跟有内容的doc文件,mine type类型竟然是不一样的。
以上这些问题都是我在这次实际使用时遇到的,有些以目前能力可以解决,有些解决不了,还请大佬们指教!