大数据
文章平均质量分 73
大数据的重点知识、学习笔记
深夜面包
这个作者很懒,什么都没留下…
展开
-
NameNode 和 SecondaryNameNode(面试开发重点)
四、NameNode 和 SecondaryNameNode(面试开发重点)1、NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的 FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage ,就会原创 2021-07-29 16:29:05 · 69 阅读 · 0 评论 -
HDFS的数据流(面试重点)
三、HDFS的数据流(面试重点)1、HDFS写数据流程客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。NameNode 返回是否可以上传。客户端请求第一个 Block上传到哪几个 DataNode 服务器上。NameNode 返回3个 DataNode 节点,分别为dn1、dn2、dn3。客户端通过 FSDataOutputStream 模块请求dn1上传数据,dn1收到请求会继原创 2021-07-29 16:08:22 · 176 阅读 · 0 评论 -
HDFS知识点
二、HDFS知识点1、HDFS基本概述HDFS 简介:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS 定义:HDFS (Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角原创 2021-07-29 15:38:32 · 227 阅读 · 0 评论 -
Hadoop基本概述
一、Hadoop基本概述1、Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。2、Hadoop优势(4高)高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。高效性:在MapReduce的思想下,Hadoop原创 2021-07-29 14:46:29 · 728 阅读 · 0 评论 -
大数据基本概述
大数据基本概述一、大数据基本概念1、大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能俱有更强的决策边、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2、主要解决:海量数据的存储和海数据的分析计算问题。二、大数据的特点(4v)1、Volume (大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接原创 2021-07-13 11:52:41 · 10785 阅读 · 2 评论