大数据
xyh1re
这个作者很懒,什么都没留下…
展开
-
YARN
YARN通过两类长期运行的守护进程提供核心服务:管理集群上资源使用的资源管理器resource manager(RM),能够启动和监控容器(container)的节点管理器node manager(NM),container用于执行特定的应用程序进程。与HDFS一样,YARN也是master/slave结构,一个RM管理着多个NM。YARN应用运行机制1)client首先联系RM,要求它运...原创 2018-08-18 00:53:05 · 1299 阅读 · 0 评论 -
MapReduce
作业提交调用waitForCompletion()方法(内部会调用submit()方法)运行作业,submit()方法会创建一个JobSubmitter实例该实例实现作业提交的过程如下:1)向RM为MapReduce作业请求一个应用ID;2)检查作业输出,如果没有指定输出目录或输出目录已存在,就会抛出一个错误,作业不提交;3)计算作业的输入分片,如果输入分片无法计算,例如输入路径不...原创 2018-08-18 22:18:55 · 250 阅读 · 0 评论 -
Hive中的count(distinct)优化
问题描述COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。 但有时,“数据倾斜”又几乎是必然的。我们来举个例子:假设表detail_sdk_session中记录了访问某网站M的客户端会话信息,即:如果用户A打开app客户端,则会产生一条会话信息记录在该表中,该表的粒度为“一次”会话,其中每次会话都记录了用户的唯一标示u...转载 2018-08-18 23:11:04 · 9763 阅读 · 0 评论 -
Hive中Join的原理和机制
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、S...转载 2018-08-18 23:12:12 · 214 阅读 · 0 评论 -
HDFS
数据块hdfs上的文件被切分为多个块(block),每个block的大小默认为128M,小于一个block大小的文件不会占据整个块的空间,每个block会保存多个副本以实现容错,默认副本数为3,对特殊文件可以在上传时指定副本的个数:hadoop fs -D dfs.replication=4 -put 1.txt /tmp/。副本的存放机制:第1个副本存放在运行客户端的节点上,第2个...原创 2018-08-17 18:12:51 · 856 阅读 · 0 评论