Hadoop简介

zzyczzyc

于 2020-04-14 13:54:24 发布

阅读量127

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/zzyczzyc/article/details/105509673

版权

9 篇文章 0 订阅

订阅专栏

痛点：数据量大，需要并发，单机中采用多线程、多进程等，但是依然还是一台机器，最多也就充分利用一个计算机资源，需要集群并发处理，多个进程分布到多个机器中要比在单个机器中更复杂，涉及网络通信、数据之间同步等
解决：Hadoop框架的出现解决这些海量数据在不同节点计算、存储、分析、调度等问题，让研发人员更关注业务逻辑，降低研发成本。

note:
hadoop不是一个存储大量数据的数据库，里面包含数据库的功能，它是一个解决海量数据分布式计算、存储的技术框架的生态系统，说白了，里面包含很多功能，数据库只是其中一个。

HDFS出现之前的一些解决方案：例如：NFS（网络文件共享系统)
将其他节点上的文件夹共享，挂载到一个总电脑的目录下，实现分布式的海量文件存储，但是存在一些问题：

HDFS的解决方案：

把大的文件切成小的块，放在不同的节点（Datanotes），也就是一个大的文件分布在不同节点中
每个块有多个副本（replication），解决了NFS的一个节点损坏文件丢失的问题，提高数据可靠性；另一个好处是如果多个用户访问这个文件，可以分配用户到不同的副本，提高数据吞吐量（并发）
客户端访问数据只知道路径，并不知到一个文件被切成多少块，分配到哪些节点里面，所以中间会有“一个文件路径和哪些块在哪些节点中”的映射管理（Namenode）,所以客户端必须先访问Namenode，然后再去Datanode中读写。

在这里插入图片描述
百度网盘等应用就是这个原理

在这里插入图片描述

关注