学习笔记（3）：海量数据的交互式分析工具-Dremel

最新推荐文章于 2024-05-08 18:30:55 发布

zty666_

最新推荐文章于 2024-05-08 18:30:55 发布

阅读量1.7k

点赞数 2

文章标签：学习 mapreduce hadoop

本文链接：https://blog.csdn.net/zty666_/article/details/124789166

版权

产生背景

Google公开了MapReduce计算框架之后，由于其强大的数据分析和处理能力，很快被视为数据分析的一个实际标准，各种围绕MapReduce框架的开发层出不穷。但互联网的发展，数据种类和应用需求呈现出爆炸式增长。MapReduce作为一种面向批处理的框架，在很多领域不再实用了。对此出现了两种思路，一种是对MapReduce进行改造，使其除了能进行批处理外还能进行其他类型的数据能力，比如处理流数据。另一种思路就是完全抛开MapReduce，根据具体的应用重新进行架构。很明显后一种思路对问题的解决更彻底，于是Google开发了Dremel系统。

Dremel的基本概述

Dremel是一款海量数据交互式分析工具。
Dremel和MapReduce并不是互相替代，而是相互补充的技术。在不同的应用场景下各有其用武之地。
Dremel系统有下面几个主要的特点：

List itemDremel是一个大规模系统。
Dremel是MR交互式查询能力不足的补充。
Dremel的数据模型是嵌套的。
Dremel中的数据是用列式存储的。
Dremel结合了Web搜索和并行DBMS的技术

要注意的是：Dremel并不开源，但是Google利用Dremel向外界用户提供BigQuery服务，可以通过体验BigQuery服务来感受Dremel的强大功能

数据模型

dremel的数据模型的抽象语法如下：

技术支撑

Google的数据平台需要满足通用性，不同平台之间能够很好地实现数据的交互处理

统一的存储平台：实现高效的数据存储，Dremel使用的底层数据存储平台是GFS
统一的数据存储格式：存储的数据才可以被不同的平台所使用

面向记录和面向列的存储

- Google的Dremel是第一个在嵌套数据模型基础上实现列存储的系统
![在这里插入图片描述](https://img-blog.csdnimg.cn/27436ce7ce8441b89c04bc1969bccb51.png)

处理时只需要使用涉及的列数据
列存储更利于数据的压缩

嵌套模型的形式化定义

在这里插入图片描述
字符t是一个数据类型的定义，可以是原子

最低0.47元/天解锁文章

zty666_

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫