非结构化数据的定义及处理方法

一.非结构化数据的定义

结构化数据指有完整规则的数据模型定义,高度组织格式化,可用统一的结构逻辑表达的数据。如:日期、电话号码等。

非结构化数据指数据定义不完整或不规则,没有预定义的数据模型,无法用数据库二维表结构来逻辑表达的数据。简单来说就是字段可变的数据。常见的非结构化数据有文档、图片、音频、视频等。

半结构化数据为介于结构化数据与非结构化数据之间的数据,常见的半结构化数据有HTML(超文本标记语言)、XML(可扩展标记语言)。

二.非结构化数据的重要性

据IDC调查,目前企业结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,这些非结构化数据每年增长率达60%。

非结构化数据,顾名思义,是存储在文件系统的信息,包括视频、音频、图片、图像、文档、文本等形式。非结构化数据具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得到放大。

如何管理好这80%的数据,是企业构建协同生态的关键一环。非结构化数据的存储和流转,大都采用邮件、FTP以及QQ等IM工具为主。这些工具传递文件时速度不稳定,安全性得不到保障,并且无法很好地满足企业中一对多的高频数据传递场景。

三.非结构化数据的查询

(1)顺序扫描法(Serial Scanning)

所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。

(2)全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。

例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。

四.非结构化数据的存储

(1)将非结构化数据以文件的方式存储在文件系统中,同时将指向文件的链接或路径存储在数据库表中。这种方式数据读写的速度较快,但数据管理不方便,并需要额外考虑事务处理的一致性和数据的安全性。 
(2)将非结构化数据存储在传统的数据库表的大对象字段中。这种方式充分利用数据库的事务、管理和安全特性,但在数据查询和读写的性能不高。 

为解决上面两种方式的缺点,利用其所长,最新的非结构化数据存储技术在磁盘格式、网络协议、空间管理、重做和撤销格式、缓冲区缓存以及智能的I/O子系统等方面发生重大转变,在保证了文件数据的性能的同时,还保留了数据库的优势。较有代表性的就是Oracle SecureFiles非结构化数据存储方式。

参考来源:https://blog.csdn.net/iteye_15219/article/details/81764737

参考来源:https://blog.csdn.net/boss_way/article/details/78505836

参考来源:http://www.winhong.com/news/detail.aspx?id=100000514799657

 

 

  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值