HDFS
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。
weixin_43563705
将自己的所学到的知识分析给大家
展开
-
HDFS调用JAVAapi
HDFS调用API创建项目pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xs...原创 2019-11-23 15:57:37 · 3770 阅读 · 1 评论 -
Name node is in safe mode(Namenode 处于安全模式)
在我使用HaoopJavaApi去在集群上创建文件夹的时候提示:org.apache.hadoop.ipc.RemoteException== Cannot create directory /airpods. Name node is in safe mode.==org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.ser...原创 2019-11-23 14:42:40 · 7834 阅读 · 1 评论 -
最新版本Hadoop面试题
怎么理解分布式?分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算,而是把一个数据拆分成小块进行存储,把多个节点一块进行计算hadoop 的组成部分HDFS 分布式文件存储系统管理者:NameNode工作者:DataNode辅助者:SecondayNameNodeMapReduce 分布式离线存储框架Yarn Hadoop资源调度器...原创 2019-11-11 20:13:57 · 9551 阅读 · 5 评论 -
HDFS的javaAPI操作,HDFS权限问题以及伪造用户,HDFS的小文件合并
javaAPI操作创建maven工程并导入jar包由于cdh版本的所有的软件涉及版权的问题所以并没有将所有的jar包托管到maven仓库当中去而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅https://www.cloudera.com/documentatio...原创 2019-11-08 16:07:15 · 8658 阅读 · 3 评论 -
HDFS Datanode多目录配置 Block块手动拼接成为完整数据
Datanode多目录配置datanode也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。具体配置如下:cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop<!-- 定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割 --><property&...原创 2019-11-08 15:56:32 · 9420 阅读 · 2 评论 -
HDFS新增节点与删除节点(小白也能看懂,强烈推荐)
服役新数据节点需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们新的节点第二步:修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修...原创 2019-11-07 10:09:36 · 9396 阅读 · 2 评论 -
Namenode故障恢复
Namenode元数据信息多目录配置为了保证元数据的安全性,我们一般都是先确定好我们的磁盘挂载目录,将元数据的磁盘做RAID1Namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。具体配置如下:文件名:hdfs-site.xml<property> <name>dfs.namenode.name.dir</name>&...原创 2019-11-07 09:23:39 · 8146 阅读 · 2 评论 -
SecondarynameNode如何辅助管理FSImage与Edits文件
SecondarynameNode工作原理由于editlog记录了集群运行期间所有对HDFS的相关操作所以这个文件会很大。集群关闭后再次启动时会将Fsimage,editlog加载到内存中,进行合并,恢复到集群的。由于editlog文件很大所有,集群再次启动时会花费较长时间。为了加快集群的启动时间,所以使用secondarynameNode辅助NameNode合并Fsimage,edi...原创 2019-11-07 08:48:46 · 7879 阅读 · 2 评论 -
HDFS : Fsimage与Edits 详解
Fsimage Edits详解NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增删改查。Fsimage保存了最新的元数据检查点,在H...原创 2019-11-07 08:35:00 · 10834 阅读 · 1 评论 -
HDFS的特性,hdfs的安全模式,Hdfs的文件权限验证
HDFS的特性HDFS的优点1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。 3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商...原创 2019-11-06 18:57:30 · 9085 阅读 · 1 评论 -
HDFS的shell命令操作,hdfs的高级使用命令
HDFS的shell命令操作基本语法bin/hdfs dfs 具体命令参数大全[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfsUsage: Hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-ca...原创 2019-11-06 18:47:59 · 8506 阅读 · 1 评论 -
HDFS:DataNode功能与目录结构,机架感知,HDFS读写流程,HDFS读取过程,HDFS数据完整性
DataNode作用文件的各个 block 的具体存储管理由 datanode 节点承担。每一个 block 都可以在多个datanode 上。Datanode 需要定时向 Namenode 汇报自己持有的 block信息。存储多个副本(副本数量也可以通过参数设置 dfs.replication,默认是 3)。心跳是每3秒一次心跳返回结果带有namenode给该datanode的命令如...原创 2019-11-06 16:35:53 · 8916 阅读 · 2 评论 -
HDFS文件系统的基础理论,HDFS工作者和管理者的分配,HDFS文件存储容量的理解
1.HDFS的文件系统介绍HDFS是Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。HDFS使用Master和Slave结构对集群进行管理。一般一个 HDFS 集群只有一个Namenode 和一定数目的Datanode 组成。Namenode 是 HDFS 集群主节点...原创 2019-11-05 18:05:12 · 10333 阅读 · 2 评论