![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 77
Mr_Hagrid
这个作者很懒,什么都没留下…
展开
-
Hadoop搭建注意事项
经过两次搭建环境实践后,总结搭建原理。1方式 单机 http://blog.csdn.net/xuxiuning/article/details/51013571 2方式 多机 http://blog.csdn.net/xuxiuning/article/details/510184251 Hadoop 各个目录的解释bin:Hadoop管理脚本和使用脚本所在目录, sbin目录下的脚本都是使用原创 2016-04-01 11:29:51 · 609 阅读 · 0 评论 -
Hadoop MapReduce 深入理解!二次排序案例!
1. MapReduce 处理的数据类型1.1 必须实现 org.apache.hadoop.io.Writable 接口。需要实现数据的序列化与反序列化,这样才能在多个节点之间传输数据!示例:public class IntWritable implements WritableComparable<IntWritable> , public interface WritableComparab原创 2016-04-11 21:04:35 · 16224 阅读 · 1 评论 -
Hadoop监控之Ganglia整合
1 Ganglia基本原理 在Hadoop产生之前就有Ganglia,他是为集群系统监控而生。Hadoop利用Ganglia的接口,从而实现了对Ganglia的兼容。1.1 gmond分布在各个节点上的监控进程,搜集本节点的监控信息。针对Hadoop监控,可以采用同样的协议向gmond服务发送Hadoop的监控信息。1.2 gmetad相当与集群中的中心节点,主动拉取各个节点上收集到的监控信息。可原创 2016-08-10 16:29:13 · 3788 阅读 · 0 评论 -
Zookeeper原理架构
本文纯属个人笔记,通俗易懂,转载请附上原文链接!部分资料摘自网络,如有雷同,纯属巧合!Zookeeper到底是什么!?学一个东西,不搞明白他是什么东西,哪还有心情学啊!! 首先,Zookeeper是Apache的一个java项目,属于Hadoop系统,扮演管理员的角色。 然后看到官网那些专有名词,实在理解不了。在Zookeeper的官网上有这么一句话:ZooKeeper is a central原创 2016-04-22 11:59:44 · 55262 阅读 · 8 评论 -
Hadoop监控之Ganglia源码编译安装方式(不建议采用)
1 Ganglia 安装配置官方网站:http://ganglia.sourceforge.net/ sourceforge 网址: https://sourceforge.net/projects/ganglia/ 2016年8月9日 10:14:22 日获取的真实下载地址:wget http://downloads.sourceforge.net/project/ganglia/gangl原创 2016-08-09 14:29:39 · 1000 阅读 · 0 评论 -
Apache Hadoop2.6.2 小集群搭建
1. 拓扑结构图4台机器,搭建图如下 1,2,3,4 分别记做 Hagrid01,Hagrid02,Hagrid03,Hagrid04 NN指的是 Namenode JN指的是JournalNode DN指的是DataNode 生产环境下,Active NN 和 Standby NN 都应该单独占用一台机器,这里为了节省资源,StandbyNN上也做了 JN 和 DN 2. 对每台机器原创 2016-03-31 21:58:15 · 888 阅读 · 1 评论 -
Hadoop单机安装测试
1 设置为普通用户安装hadoop最好在普通用户下,不要用超级用户。(第一步:useradd -d /home/john john,第二部:passwd john 123456)2 配置本机的hosts方便后续使用,这个hosts,root用户才可以改。 增加: 127.0.0.1 hagrid013 一定要安装好了jdk4 下载解压编译好的hadoop查看本机的位数,下载对应的hadoop的版本原创 2016-03-30 19:11:10 · 2822 阅读 · 0 评论 -
hdfs dfsadmin
bin/hdfs dfsadmin管理HDFSHagrid01@Hagrid01:[/Hagrid/hadoop-2.6.2]bin/hdfs dfsadminUsage: hdfs dfsadminNote: Administrative commands can only be run as the HDFS superuser. **[-report [-live] [-原创 2016-04-15 16:21:13 · 2333 阅读 · 0 评论 -
Hadoop MapReduce 配置加载机制
前言我们运行Hadoop MapReduce程序之前,都会配置job对象,通常的程序入口如下编写: public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsPar原创 2016-04-14 20:17:27 · 1132 阅读 · 0 评论 -
Hadoop-Streaming 高级参数
理解以下选项-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster:缓存文件到HDFS-libjars <comma separated list of jars> specify comma separated jar file原创 2016-04-09 14:20:59 · 2031 阅读 · 0 评论 -
Hadoop2.6.2 编译
1.Hadoop2.0 之后依赖 protobuf 实现RPC,因此要先安装依赖在hadoop-common-project 下 maven package -DskipTests 编译时会发现缺少依赖包protoc,并提示依赖的版本,可以修改hadoop-common-project 下 pom.xml 文件里边具体的版本(你本机安装的版本),以通过编译。 找到定义处的文件的方法: 在ha原创 2016-04-09 12:41:56 · 656 阅读 · 0 评论 -
从Hadoop配置文件深刻理解MapReduce优化
MapReduce优化的入手点– 合理设定Map/Reduce数量 – 如果可能,使用Combiner减少中间数据输出 – 对中间数据和最终结果启用压缩 – 减少Shuffle过程中写入磁盘的数据 – 适当增大每个节点的处理任务的并发度1. 合理设定Map数量Mapper数量不能直接设定1.1 可以通过选择BlockSize间接调整Mapper数量hdfs-site.xml 中• dfs原创 2016-04-07 15:16:23 · 859 阅读 · 0 评论 -
Hadoop主要配置文件深入理解
1 Hadoop源码加载配置文件原理在Hadoop源码中,通过搜索classpath路径,来直接找到和读取配置的xml文件,使得你的配置在启动时生效。 通过命令bin/hadoop classpath 可以查看当前Hadoop可以识别出来的classpath。 可见,第一条路径就是配置文件的目录,因此源码可以直接使用文件名来获取配置信息。2 Hadoop配置文件的层级关系在Hadoop源码C原创 2016-04-06 15:32:33 · 17127 阅读 · 4 评论 -
MapReduce2.0 原理、架构、应用场景
MapReduce典型应用,WordCount Map阶段:首先将输入数据进行分片,然后对每一片数据执行Mapper程序,计算出每个词的个数,之后对计算结果进行分组,每一组由一个Reducer程序进行处理,到此Map阶段完成。 Reduce阶段:每个Reduce程序从Map的结果中拉取自己要处理的分组(叫做Shuffling过程),进行汇总和排序(桶排序),对排序后的结果运行Reducer程序,原创 2016-04-06 10:25:43 · 6366 阅读 · 0 评论 -
HDFS 原理、架构、应用
HDFS架构:各个模块的角色Active Namenode(ANN) - 主Master(只有一个) - 管理HDFS的名称空间和数据块映射信息也就是元信息 - 配置副本存放策略 - 处理客户端的读写请求Standby Namenode(SNN) - ANN的热备份 - 定期合并fsimage(HDFS的目录信息)和fsedits(HDFS的目录修改信息),并推送给ANN - 当ANN挂原创 2016-04-05 11:35:59 · 669 阅读 · 0 评论 -
HQL window 窗口函数
HQL窗口函数声明:资料整理于网络,仅供参考学习,如有侵权,概不负责。数据准备Over函数NTILEROW_NUMBERRANK 和 DENSE_RANKCUME_DIST 和 PERCENT_RANKCUME_DISTPERCENT_RANKLAG LEAD FIRST_VALUE LAST_VALUELAGLEADFIRST_VALUE 和 LAST_VALU...原创 2019-09-11 17:53:29 · 1344 阅读 · 0 评论