数据架构——个人分析及复合式数据架构

每个企业都哟两个层次的决策:企业决策和个人决策。企业决策是在一种正式的规范环境下完成的,而个人决策是一种即兴的、个体的非正式的决策。个人分析师可以通过面向个人分析环境的各种工具查看企业数据或个人数据,在做个人分析时并没有时间限制。个人决策是动态的,而个人的分析环境一般是个人的电脑,常使用EXCEL进行。EXCEL有很多优点:

  • 提供自主性:分析师可以自由的利用任何公式录入任何数据并且随时进行更改
  • 速成:公式化和结构化处理,不需要学习工具使用的技术
  • 功能灵活:便于修改,适合所有类型的分析
  • 成本低廉:没有多余的花费

 在企业和个人层面都可以进行决策,但是决策的影响是极为不同的。在企业层面上的决策会影响到预算和企业的政策,因此个人决策的EXCEL不能进入到企业决策中。但是个人使用子集的工具以私人身份进行分析且确信子集的结果并希望据此采取决策则个人必须说服企业,从这个角度看,个人分析系统就变成了一个分析沙箱。在沙箱中,个人分析时可以做任何事,使用任何算法而不必担心对其他人产生影响。因此,个人分析决策对于企业系统也有非常现实和有益的影响,只不过这种影响是间接的。

架构是整体的体现,有时也会深入细节。在每个架构中都有一个或多个总体的蓝图说明各个组件之间是的协调关系。对于数据而言,也需要这样的一套架构去说明数据之间的协调关系。

面向信息系统的复合式基础架构有以下几个特征:

  • 数据的时效性,数据越新离交互环境越近,老旧的数据则被迁到归档环境中
  • 交互环境的关键在于应用程序的执行
  • 大数据组件可以分成分析型大数据部分和归档型大数据部份
  • 元数据可以横跨不同的环境而不受限制,元数据并不考虑数据的不同无理性和或者边界
  • 在整个复合架构中存在不同层面的元数据
  • 该复合架构中描述了企业中详细的、基础性的数据
  • 在该符合架构中数据类型有着根本性区别
     

这种复合架构能够反映出如何将不同类型的数据整合到单一架构中去,该架构还有很多细节方面没有展示出来:

上图中指出原始大数据环境可以划分为两个主要的数据类型:重复型数据和非重复型数据。非重复型数据中蕴含了绝大多数的业务价值。非重复型数据需要进行文本消岐,在完成文本消岐之后应对这些数据进行以下操作:

  • 格式化为标准的数据库结构
  • 语境化

当这些数据经过文本消岐之后,语境化数据既能以语境化的状态回传到大数据环境,也能直接进入标准数据库管理系统。大数据环境中另一个数据流是从重复型数据流向提炼过程或者筛选过程,筛选和提炼过程中的数据最后流入数据库管理系统中。

数仓中的数据可以逆向流入大数据环境,在标准数据库环境中,能够以如下方式继续宁数据分析:

  • 仅分析结构化数据
  • 仅分析非结构化数据
  • 一起分析结构化数据和非结构化数据


DataVault架构基于三层结构的数据仓库架构。多层结构使实现人员和设计人员可以对企业数据仓库去耦合化,将数据来源和获取功能与信息交付和数据供应功能分解开。NoSQL也在此架构中,这样企业关系平台可以继续发挥作用,也可以将处理大数据所需的新技术整合起来。

 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值