hive
zyj8170
在搜狐软件科技负责软件开发工作,主要研究方向:分布式和高并发。
展开
-
tez0.8在hadoop2.7.1上的应用
一、配置1、tez的编译在我的另外一篇文章中,在这里不再叙述2、将生成的war包拷贝到hadoop的/apps/tez目录,这个目录自己定义3、在hadoop的conf目录新建一个tez-site.xml 配置文件,内容如下: tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz原创 2016-11-14 17:41:08 · 1313 阅读 · 0 评论 -
apache tez0.8编译
一,先准备环境,首先确保能上网,然后如下环境lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseS原创 2016-11-14 11:42:20 · 1141 阅读 · 1 评论 -
apache tez
你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加速Hadoop查询处理”,在这个呈现中他们讨论了Tez的设计,它的一些突出亮点,同时还分享了通过让Hive使用Tez而转载 2016-11-11 11:02:18 · 753 阅读 · 0 评论 -
浅谈数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据转载 2016-10-25 11:19:47 · 1450 阅读 · 0 评论 -
hive中join操作
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶原创 2016-12-22 17:51:12 · 539 阅读 · 0 评论 -
Hive ROW_NUMBER,RANK(),DENSE_RANK()
准备数据浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京,270江苏,苏州,299江苏,某市,200江苏,某某市,100 创建表CREATE table pcp(province string,city string,people int)ROW FORMAT原创 2017-05-04 10:59:37 · 320 阅读 · 0 评论 -
大数据环境下该如何优雅地设计数据分层
0x00 前言最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。...转载 2018-02-23 16:34:53 · 493 阅读 · 1 评论