学习笔记(3):海量数据的交互式分析工具-Dremel

产生背景

Google公开了MapReduce计算框架之后,由于其强大的数据分析和处理能力,很快被视为数据分析的一个实际标准,各种围绕MapReduce框架的开发层出不穷。但互联网的发展,数据种类和应用需求呈现出爆炸式增长。MapReduce作为一种面向批处理的框架,在很多领域不再实用了。对此出现了两种思路,一种是对MapReduce进行改造,使其除了能进行批处理外还能进行其他类型的数据能力,比如处理流数据。另一种思路就是完全抛开MapReduce,根据具体的应用重新进行架构。很明显后一种思路对问题的解决更彻底,于是Google开发了Dremel系统。

Dremel的基本概述

Dremel是一款海量数据交互式分析工具。
Dremel和MapReduce并不是互相替代,而是相互补充的技术。在不同的应用场景下各有其用武之地。
Dremel系统有下面几个主要的特点:

  • List itemDremel是一个大规模系统。
  • Dremel是MR交互式查询能力不足的补充。
  • Dremel的数据模型是嵌套的。
  • Dremel中的数据是用列式存储的。
  • Dremel结合了Web搜索 和并行DBMS的技术

要注意的是:Dremel并不开源,但是Google利用Dremel向外界用户提供BigQuery服务,可以通过体验BigQuery服务来感受Dremel的强大功能

数据模型

dremel的数据模型的抽象语法如下:

技术支撑
Google的数据平台需要满足通用性,不同平台之间能够很好地实现数据的交互处理
  • 统一的存储平台:实现高效的数据存储,Dremel使用的底层数据存储平台是GFS
  • 统一的数据存储格式:存储的数据才可以被不同的平台所使用
面向记录和面向列的存储
- Google的Dremel是第一个在嵌套数据模型基础上实现列存储的系统
![在这里插入图片描述](https://img-blog.csdnimg.cn/27436ce7ce8441b89c04bc1969bccb51.png)
  • 处理时只需要使用涉及的列数据
  • 列存储更利于数据的压缩
嵌套模型的形式化定义

在这里插入图片描述
字符t是一个数据类型的定义,可以是原子

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值