Hadoop
文章平均质量分 91
fcyh
A man must be on his own
展开
-
MapReduce计数器
MapReduce计数器 计数器输出 运行完毕作业之后的计数器输出 内置计数器 Hadoop为每个作业提供了若干内置计数器,用以描述各项指标。 文件系统计数器 所属类:org.apache.hadoop.mapreduce.FileSystemCounter BYTES_READ:文件系统读取的字节数 BYTES_WRITTEN:文件系统写的字节数 FileInputFormat任务计数器原创 2017-07-08 10:00:59 · 412 阅读 · 0 评论 -
MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;原创 2017-07-08 10:00:56 · 443 阅读 · 0 评论 -
Shuffle过程
Shuffle过程 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,也实现了shuffle的逻辑。 Shuffle Shuffle是MapReduce框架中的一个特定的phase,介于M原创 2017-09-13 10:20:08 · 550 阅读 · 0 评论 -
HDFS入门
HDFS入门 欢迎关注我的个人博客:http://www.cnblogs.com/yjd_hycf_space 更多大数据以及编程相关的精彩文章 为什么我们需要HDFS 文件系统由三部分组成:与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。 既然读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)。我们需要一个巨大文件难道得换传输速度10GB/原创 2017-07-08 10:01:16 · 358 阅读 · 0 评论 -
HDFS shell命令
HDFS shell命令 FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用原创 2017-07-08 10:01:18 · 612 阅读 · 0 评论 -
yarn是什么?为什么会产生yarn,它解决了什么问题?以及yarn的执行流程
yarn是什么?为什么会产生yarn,它解决了什么问题? 答:yarn是作业调度和集群资源管理的一个框架。 首先对之前的Hadoop 和 MRv1 简单介绍如下: Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图 1 演示了一个 Hadoop 集群的高级组件。 图 1. Hadoo原创 2017-07-08 10:01:13 · 3483 阅读 · 0 评论 -
Hadoop与Spark之间的比较
Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop原创 2017-10-17 14:38:21 · 14484 阅读 · 0 评论