大数据
文章平均质量分 81
依晨恋
一个年龄日渐增大,心理却日渐单纯的大男孩
展开
-
hive udaf的开发
转自:点击打开链接 介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。 本文只介绍通用UDAF。 UDAF是需要在转载 2015-03-25 17:48:19 · 373 阅读 · 0 评论 -
MR的Shuttle过程剖析
转自:点击打开链接 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资转载 2015-03-25 10:56:45 · 668 阅读 · 0 评论