非结构化数据的定义及处理方法

非结构化数据占企业数据的80%,年增长率高达60%,包括视频、音频、图片等多种形式。管理非结构化数据是企业关键任务,常见处理方式包括顺序扫描和全文检索。全文检索通过建立索引来提高搜索效率,存储方案则分为文件系统存储和数据库存储,现代技术寻求结合两者优点以平衡性能和管理便捷性。
摘要由CSDN通过智能技术生成

非结构化数据的定义及处理方法

1.定义

非结构化数据:
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。

2.非结构化数据的重要性

据IDC调查,目前企业结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,这些非结构化数据每年增长率达60%。

非结构化数据,顾名思义,是存储在文件系统的信息,包括视频、音频、图片、图像、文档、文本等形式。非结构化数据具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得到放大。

如何管理好这80%的数据,是企业构建协同生态的关键一环。非结构化数据的存储和流转,大都采用邮件、FTP以及QQ等IM工具为主。这些工具传递文件时速度不稳定,安全性得不到保障,并且无法很好地满足企业中一对多的高频数据

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值