Apache推出Google Dremel的开源版本Drill

最新推荐文章于 2022-05-18 09:55:21 发布

z_l_l_m

最新推荐文章于 2022-05-18 09:55:21 发布

阅读量1.2k

点赞数

分类专栏：大数据处理文章标签： Dremel Drill Apache

大数据处理专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在大数据时代，对于Hadoop中的信息，越来越多的用户需要能够获得快速且互动的分析方法。现在，谷歌正在使用Dremel工具来快速分析事务，而Apache基金会则支持了一个类似于Dremel的开源版本——Drill。（CSDN编者注：Dremel是一种用来分析信息的方法，它可以在数以千计的服务器上运行，允许你“请求查询”海量数据，如网络文件的集合或是数字图书馆等，甚至是描述成百上千万条垃圾游戏信息的数据。这类似于分析一个使用SQ语言L的传统数据库。而Dremel能以极快的速度处理网络规模的海量数据。据谷歌的研究报告显示，你能以PB数量级来进行查询，而且只需几秒钟时间就能完成。）在Apache基金会文档中如此描述：Drill，一个专为互动分析大型数据集的分布式系统。

目前来看，MapReduce通常用于执行Hadoop数据上的批处理分析，但并不适合于你想快速得到结果或者重新定义查询参数。如果想要做到这些，你需要一个新工具，比如Drill。其可以通过对PB字节数据的快速扫描（大约几秒内）完成相关分析。

“Drill与MapReduce相辅相成。在谷歌，数以千计的工程师每天都在使用Dremel和MapReduce，未来也将有着更多的人来使用Drill与MapReduce， ”Tomer Shiran如此表示。他也是MapR的产品管理总监，一直支持Drill的开发。

Apache这一项目最初的目标是建立共同的API和制定架构来容纳更多数据源，数据格式和查询语言。早期参与者包含MapR的技术员工如Shiran、Jason Frantz、Ted Dunning、MC Srivas、Keys Botzum和Gera Shegalov。Shiran表示，希望更多贡献者的加入，比如来自电子商务公司和Web2.0的企业即使他们是MapR的竞争对手。“人们已经看到Google是如何利用Dremel的，我们希望也能做的那样好。”

支持者认为Drill可以和Hive、Pig以及Cascading一样成为在MapReduce中所需要的高级编译语言，并且可以更快（Hadoop已经提供了在庞大的数据集合中运行SQL查询请求的工具，Pig和Hive等姊妹项目也是为此而构建的，但使用Hadoop会有迟延时间）。显然，如何使大数据查询更快已经成为如今的一大主题。在一些情况中，用户需要分析大量的数据流来寻找满足一个任务的适合产品,比如像是暴风雨或是Nodeable的StreamReduce。但是企业要想在现有Hbase或者Hadoop的数据中实现快速或者瞬时查询，也许Drill就是答案。(编译/郭雪梅，审校/李智)

延伸阅读：要了解Drill就要先了解Dremel！谷歌Dremel让大数据变小

原文链接：GigaOM