hadoop
zll0927
这个作者很懒,什么都没留下…
展开
-
hadoop集群默认配置和常用配置
获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default原创 2013-05-02 12:50:42 · 627 阅读 · 0 评论 -
cygwin下安装和配置ssh笔记
提前建立好sshd账户,管理员权限提前删除可能已经存在的sshd服务:cmd下运行:sc delete sshd以管理员身份运行cygwin terminal赋予相关的文件读写权限:chmod +r /etc/groupchmod +r /etc/passwdchmod +rwx /varssh-host-conifg有必要的话rewrite两个文件,两个y原创 2013-05-02 12:50:27 · 625 阅读 · 0 评论 -
HiveQL详解
HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成MapReduce脚本等, 本节主要介绍Hive的数据类原创 2013-06-14 11:26:26 · 740 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里原创 2013-09-15 13:10:38 · 427 阅读 · 0 评论 -
控制Hadoop的reducer函数输出文件命名
Hadoop 控制输出文件命名在一般情况下,Hadoop 每一个 Reducer 产生一个输出文件,文件以part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命名或者每一个 Reducer 需要写出多个输出文件时,可以采用 MultipleOutputs 类来完成。MultipleOutputs 采用输出记录的键值对(output Key原创 2013-11-06 23:52:32 · 1036 阅读 · 0 评论