编 辑:彭文华
来 源:大数据架构师
彭友们好,我是老彭。最近遇到几个项目,都跟非结构化数据脱不开关系。
老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。
真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。
但是现在已经发展这么多年了,大多数企业结构化数据多少有些基础了,非结构化数据治理还是一片空白。今天就唠唠这个话题~~
非结构化数据
这里说的非结构化数据特指:
1、公文、研究报告等各种文档
2、监控视频等各种音视频
3、设计图等各种特殊文件
这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:
1、没有统一存储(各种附件,各种微信传输)
2、没有统一标准(都是各自写的文件