![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
zhongyoubing
这个作者很懒,什么都没留下…
展开
-
Hadoop 中的Shuffle详解
MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到转载 2017-04-08 17:03:43 · 1429 阅读 · 0 评论 -
windows7 平台下导入hadoop2.6.5 2。
1 下载源码 前往官网下载源码压缩包 2.先期准备工作 解压源码包,可以查看BUILD.txt ,需要安全maven ,protobuf 2.1 protobuf的安装 下载protobuf-2.5.0.tar.gz和protoc-2.5.0-win32.tar, 将两者进行解压,然后将protoc-2.5.0-win32.tar中的protoc.exe分别复制到C原创 2017-04-06 21:00:30 · 451 阅读 · 0 评论 -
hive-1.x在hadoop-2.x上的安装
1.mysql 的安装安装mysql只需要执行以下几步:apt-get install mysql-server,mysql-client(ubuntu平台)安装之后配置/etc/mysql/my.cnfbind-address 0.0.0.0使用root 用户登陆mysql,create user 'hive' identified by 'hive'; grant all privileges原创 2017-04-14 22:57:06 · 652 阅读 · 0 评论 -
LSM树及在Hbase中的应用
1.LSM树的由来 现在数据结构中主要有三中基本的存储引擎: 1、哈希存储引擎 哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就很方便。 2、B树存储引擎原创 2017-04-15 21:52:50 · 557 阅读 · 0 评论 -
hive中udf
1.概述 尽管hive提供了丰富的函数,但有时依然不能满足用户的需求,此时就需要用户实现UDF。 UDF(user define funtion),用户通过自定义对数据的处理过程,以函数的形式在HiveSQL中使用。 有两种方式在HiveSQL上实现UDF,1、通过java或是通过JVM实现的其他语言,实现UDF; 第二种方式 ,通过 TRANSFORM...AS 语原创 2017-04-16 17:18:38 · 819 阅读 · 0 评论