Hadoop生态系统详解：从HDFS到MapReduce

最新推荐文章于 2024-07-24 21:14:44 发布

乌龙饼干

最新推荐文章于 2024-07-24 21:14:44 发布

阅读量392

点赞数 11

文章标签： hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/weixin_66354126/article/details/135386072

版权

Hadoop生态系统详解：从HDFS到MapReduce

Hadoop，作为一个大数据处理的开源框架，为大规模数据的存储和处理提供了强大的支持。其核心组件包括分布式文件系统HDFS和数据处理框架MapReduce。本文将详细解析Hadoop生态系统，从HDFS到MapReduce的工作原理和使用方法，并附上示例代码。

一、HDFS（Hadoop Distributed FileSystem）

HDFS是Hadoop的分布式文件系统，用于在跨多台机器的大型数据集上进行存储。它是为处理大型数据集而设计的，具有高度的容错性。

HDFS的特点：

适合大数据的处理：HDFS可以高效地管理PB级别的数据。
流式数据访问：HDFS是为批量处理设计的，而不是为交互式用户设计的。它重视数据的吞吐量，而不是访问时间。
硬件容错性：HDFS通过数据复制和故障恢复机制来提供硬件容错性。

HDFS的架构：

HDFS由NameNode和DataNode组成。NameNode存储文件系统的元数据，而DataNode负责存储实际的数据。

二、MapReduce

MapReduce是Hadoop的编程模型，用于处理大规模数据集。它将计算任务分解为两个主要阶段：Map阶段和Reduce阶段。

MapReduce的工作原理：

Map阶段：在这个阶段，输入数据被切分为多个较小的数据集，并为每个数据集执行一个Map函数。Map函数会生成一系列的键值对作为中间输出。
Shuffle阶段：这个阶段负责将Map阶段的输出按照键进行排序和分组，然后发送给相应的Reducer。
Reduce阶段：在这个阶段，Reducer会对每个键及其关联的值集合执行一个Reduce函数，生成最终的输出。

示例代码：

下面是一个简单的MapReduce程序，用于计算单词的频率。

Mapper代码：

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            context.write(word, one);
        }
    }
}

Reducer代码：

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        context.write(key, new IntWritable(sum));
    }
}

Driver代码：

public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCountMapper.class);
        job.setCombinerClass(WordCountReducer.class); // 可选的组合器，可以提高性能
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0])); // 输入路径
        FileOutputFormat.setOutputPath(job, new Path(args[1])); // 输出路径
        System.exit(job.waitForCompletion(true) ? 0 : 1); // 等待任务完成并退出系统
    }
}

这个示例程序会从输入文件中读取文本行，将每行拆分为单词，并计算每个单词的频率。最后，它将结果写入输出文件。

乌龙饼干

关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态系统详解：从HDFS到MapReduce

Hadoop，作为一个大数据处理的开源框架，为大规模数据的存储和处理提供了强大的支持。本文将详细解析Hadoop生态系统，从HDFS到MapReduce的工作原理和使用方法，并附上示例代码。HDFS是Hadoop的分布式文件系统，用于在跨多台机器的大型数据集上进行存储。它是为处理大型数据集而设计的，具有高度的容错性。这个示例程序会从输入文件中读取文本行，将每行拆分为单词，并计算每个单词的频率。最后，它将结果写入输出文件。下面是一个简单的MapReduce程序，用于计算单词的频率。
复制链接

扫一扫