Hadoop
文章平均质量分 84
和风与影
大数据程序员
展开
-
【Hadoop】MapReduce 编程案例-WordCount
wordcount原创 2022-08-30 11:16:57 · 537 阅读 · 0 评论 -
【Hadoop】Hadoop 调优
Hadoop 常用调优手段原创 2022-07-31 11:02:16 · 696 阅读 · 0 评论 -
【Hadoop】HDFS 原理
HDFS 的原理原创 2022-07-31 11:00:40 · 732 阅读 · 2 评论 -
【Hadoop】MapReduce 原理
MapReduce 常考题原创 2022-07-30 21:31:07 · 506 阅读 · 0 评论 -
【Hadoop】Hadoop 高频面试题英语版(1)
hadoop原创 2022-07-04 15:35:04 · 592 阅读 · 0 评论 -
【Hadoop】Yarn 资源调度器
前面已经简单介绍过 Hadoop 是什么。没看过的可以看下面的文章。Hadoop 简介通过上一篇文章的学习,我们知道 Hadoop 主要的组成部分有如下四个:Hadoop Common:支持其他 Hadoop 模块的通用程序。Hadoop 分布式文件系统 (HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。Hadoop YARN:作业调度和集群资源管理的框架。Hadoop MapReduce:基于 YARN 的系统,用于并行处理大型数据集。由于 Spark 相比于 M原创 2022-05-02 22:42:47 · 626 阅读 · 0 评论 -
【数仓】Hadoop、Hive 和 Spark 中数据倾斜的处理
数据倾斜几乎是大数据开发的必考题。今天通过一篇文章来学习数据倾斜及其处理方法。1.什么是数据倾斜 对于分布式系统,大量的数据集中到一台或几台服务器上,称为数据倾斜。数据倾斜现象有两种,一是数据频率倾斜,某一区域的数据量远远大于其他区域;二是数据大小倾斜,部分记录的大小远远大于平均值。 开发中的常见情况是出现了热点 key(重复的 key 大量出现)。默认情况下,Map 阶段同一个 key 的数据发给同一个 Reduce 处理,导致某一个 Reduce 程序消耗的资源和运行时间远大于其他 Red原创 2022-04-19 21:40:58 · 586 阅读 · 0 评论 -
【组件】数据开发常问问题之介绍一下 Hadoop
这是关注大数据常用组件的第一篇文章。Hadoop 在大数据领域的地位至关重要。今天就从 Hadoop 开始讲解。面试中经常被问到的问题就是 Hadoop 是什么,或者请介绍一下 Hadoop,今天的文章主要对这个问题做出讲解。这个问题虽然简单,但是回答不好或者回答不全,会给面试官留下不好的印象。想回答好这个问题,最权威的应该是查看 Hadoop 的官网,它的描述最为准确和权威。1.Hadoop 是什么 打开 Apache Hadoop 的官网,最上面就是对它的描述:The Apache™ Ha原创 2022-04-18 21:05:48 · 255 阅读 · 0 评论