![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 78
VogueSuper
这个作者很懒,什么都没留下…
展开
-
初识Hadoop-HDFS
初识Hadoop-HDFS适用场景不适用场景重要概念HDFS-Hadoop Distributed Filesystem是Hadoop自带的一个分布式文件系统,可以将数据存储在分散的数据节点上。适用场景存储超大文件流式数据访问,适合一次写入,多次读取,每次读取都读取全部数据或大部分数据的场景。不适用场景低时间延迟的数据访问,HDFS适合高吞吐的访问模式,传统的关系型数据库的访问方...原创 2019-01-05 22:19:44 · 205 阅读 · 0 评论 -
初识Hadoop-MapReduce
初识Hadoop-MapReduceMapReduce是什么一个java版本的示例程序单个Reduce任务数据流多个Reduce任务数据流没有Reduce任务的数据流Combiner函数减少数据传输Hadoop的核心是HDFS,YARN,MapReduce。今天先来认识一下MapReduce。MapReduce是什么MapReduce是Hadoop中的一种处理大规模数据的编程模型,得益于Ma...原创 2019-01-01 17:52:42 · 231 阅读 · 0 评论 -
初识Hadoop-YARN
初识Hadoop-YARN运行机制资源请求应用生命周期构建YARN应用YARN资源调度器FIFO调度器容量调度器公平调度器 YARN(yet Another Resource Negotiator)是Hadoop的集群资源管理系统,YARN最初被引进Hadoop2是为了改善MapReduce的实现,但它具有足够的通用性,同样可以支持其他的分布式计算模式。例如Spark。 注意Pig Hive...原创 2019-01-13 19:04:13 · 148 阅读 · 0 评论 -
Hadoop的数据完整性、序列化
数据完整性 对于像HDFS这种体量的数据存储引擎来说,数据在传输,存储的过程中发生损坏是在所难免的,那么通过什么方式来检测数据的损坏来保证数据的完整性呢? 一般的方式是checksum(数据校验和),在数据第一次引入系统时计算校验和并在数据通过一个不可靠的通道后再次计算校验和,通过比较可以判断数据的完整性。 HDFS使用CRC32C进行数据校验,它针对每个由dfs.bytes-per-che...原创 2019-03-09 21:39:09 · 264 阅读 · 0 评论