hadoop
YYDU_666
这个作者很懒,什么都没留下…
展开
-
Shuffle 过程
上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计算出最终结果的。然而,我们还没有讨论数据是怎么通过 ShuffleDependency 流向下一个 stage 的? 对比 Hadoop MapReduce 和 Spark转载 2017-12-27 00:11:28 · 1006 阅读 · 0 评论 -
大数据hadoop 面试经典题
1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A) A、 TextInputFormat B、 KeyValueInputFormat C、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储?(C) A.NameNode B.JobT转载 2018-01-11 18:25:34 · 1138 阅读 · 0 评论 -
MapReduce性能调优记录
MapReduce原理 要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图: Map Side 1.从磁盘读取数据并分片 默认每个block对应一个分片,一个map task 2.进行map处理 运行自定义的map业务过程 3.输出数据到缓冲区中 map输出的数据并不是直接写入磁盘的,而是会先存储在一转载 2017-12-29 16:11:39 · 302 阅读 · 0 评论 -
离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程
关于CDH和Cloudera ManagerCDH (Cloudera‘s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的...转载 2018-05-20 21:54:23 · 971 阅读 · 0 评论 -
PostgreSQL GreenPlum HAWQ三者的关系及演变过程
这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与,从单机版的关系型数据库(PostgreSQL),大规模并行处理(MPP)数据库(Greenplum Database)到SQL on Hadoop解决方案(Apache HAWQ),以及最新的SQL on Cloud数据仓库(HashData)。通过回顾这个技术演进的历程,我们将阐述如何一步一步地解决联机...原创 2018-06-27 12:02:35 · 10715 阅读 · 4 评论