TDW(Tencent Data Warehouse)之hive简介

本文介绍了TDW中的Hive如何利用Antlr进行HQL解析,通过Hive.g文件定义语法。Hive的GROUP BY操作涉及选择、输出和分组三个算子,举例说明了复杂查询的处理过程。
摘要由CSDN通过智能技术生成


1.     基本概念


  Hive是由Facebook在2007年8月开始开发,并于2008年8月开源(https://issues.apache.org/jira/browse/HADOOP-3601)。它是建立在Hadoop上的数据仓库工具,它可以对存储在HDFS、HBase、PG等存储系统中的文件进行结构化分析等操作。


  Hive提供了以下功能:


  1)       提供类SQL语言(HQL),可以很方便的做ETL操作


  2)       数据可以存储在多个不同的存储系统,可以使用多种存储类型


  3)       查询执行是通过MapReduce实现


  4)       提供丰富的函数,普通函数(split等)、分析函数(sum等)、表级函数(row_number等)


 

2.     产生背景


  在Hadoop出现以前,是关系型数据库的天下,SQL语言成为很多人的必备技能。但是,随着数据量的日益增长,单机存储计算已然满足不了海量数据的分析需求。并行计算框架MapReduce随之产生,并得到了迅猛的发展,它可以对数据并行分析处理,使得海量数据的快速分析成为可能。但是,编写MR程序却不是一件很容易的事情,Hive随之而来,它可以将SQL语言自动转换成MR程序去执行,可以让使用者只关注自己的业务逻辑,如此方便的神器自然得到了很多人的青睐,尤其是原来习惯编写SQL的人,hive得到的迅猛发展。


 


3.     TDW之Hive历史


  了解我们公司的Hive,不得不说TDW(Tencent distributed Data Warehouse)的历史。我们是在2009年7月,成立TDW项目组,并启动技术架构预言。同年12月,确定TDW技术架构方案,并开始投入开发。2010年6月TDW 0.1版本发布,具备数据仓库基础功能。随后,不断完善功能、调优。2011年7月,TDW IDE发布,提高了TDW的易用性的同时,大大促进了TDW在公司的普及。


  TDW是公司级数据平台,基于share-nothing架构
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值