Hadoop
THE ORDER
卷,学习笔记
展开
-
7 HDFS工作流程与机制
1 HDFS集群角色与职责2 HDFS写数据流程(上传文件)3 HDFS读数据流程(下载文件)4 总结主角色:namenodeNameNode是Hadoop分布式文件系统的核心,架构中的主角色。 NameNode维护和管理文件系统元数据,包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。 基于此,NameNode成为了访问HDFS的唯一入口。NameNode内部通过内存和磁盘文件两种方式管理元数据。 其中磁盘上的元数据文件包括Fsi原创 2022-02-11 09:30:09 · 470 阅读 · 0 评论 -
6 HDFS shell操作
1 HDFS shell命令行解释说明2 HDFS shell命令行常用操作3 总结1、创建文件夹hadoop fs -mkdir [-p] path 为待创建的目录-p选项的行为与Unix mkdir -p非常相似,它会沿着路径创建父目录。2 查看指定目录下内容hadoop fs -ls [-h] [-R] [ …]path 指定目录路径-h 人性化显示文件size-R 递归查看指定目录及其子目录3 上传文件到HDFS指定目录下hadoop fs -pu原创 2022-02-10 09:25:56 · 381 阅读 · 0 评论 -
5 hdfs适用场景与重要性
1 hdfs应用场景2 整体概述3 主从架构4 分块存储5 副本机制6 元数据管理7 元数据统一抽象目录树8 数据块存储9 总结hdfs适合:大文件数据流式访问一次写入多次读取低成本部署,廉价PC高容错不适合小文件数据交互式访问频繁任意修改低延迟处理整体概述主从架构分块存储副本机制元数据记录抽象统一的目录树结构(namespace)...原创 2022-02-10 09:13:49 · 751 阅读 · 0 评论 -
4 HDFS起源发展与设计目标
1 HDFS起源2 HDFS设计目标原创 2022-02-10 09:04:21 · 363 阅读 · 0 评论 -
3 HDFS简介
1 hdfs简介2 优点原创 2022-02-09 11:33:54 · 130 阅读 · 0 评论 -
2 分布式存储系统的核心属性及功能含义
1 解决海量数据存储问题分布式存储系统核心属性• 分布式存储• 元数据记录• 分块存储• 副本机制2 分布式存储的优点3 元数据记录的功能4 分块存储好处5 副本机制的作用6总结分布式存储的优点是什么?无限扩展支撑海量数据存储元数据记录的功能是什么?快速定位文件位置便于查找文件分块存储好处是什么?针对块并行操作提高效率设置副本备份的作用是什么?冗余存储保障数据安全...原创 2022-02-09 11:32:06 · 1039 阅读 · 0 评论 -
1 文件系统、分布式文件系统
1文件系统定义2 传统常见的文件系统原创 2022-02-09 11:20:50 · 388 阅读 · 0 评论 -
9 MapReduce+YARN 初体验
1 MapReduce+YARN 初体验2 总结1 请求资源分配和任务调度2 MapReduce将一个作业分成两个阶段,分别是Map阶段和Reduce阶段partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。这里其实可以理解归类。combinecombine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。combine函数把一个map函数产生的 这个value2亦可称之为values,因为有多个。这个合并原创 2022-02-09 11:17:59 · 127 阅读 · 0 评论 -
8 hadoop初体验
1 HDFS初体验2总结shell命令操作hadoop fs -mkdir /itcasthadoop fs -put zookeeper.out /itcasthadoop fs -ls /(1)HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存(2)HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存原创 2022-02-09 11:13:10 · 190 阅读 · 0 评论 -
7 Hadoop集群启停命令、Web UI
1手动逐个进程启停2shell脚本一键启停Hadoop集群start-all.shstop-all.sh3进程状态、日志查看4HDFS集群5YARN集群6总结一键启动Hadoop集群start-all.shstop-all.shhdfs集群地址:http://namenode_host:9870其中namenode_host是namenode运行所在机器的主机名或者ip如果使用主机名访问,别忘了在Windows配置hostsyarn集群地址:http://re原创 2022-02-09 10:49:53 · 439 阅读 · 0 评论 -
6 hadoop格式化操作
1NameNode format(格式化操作)2 总结原创 2022-02-09 10:43:21 · 197 阅读 · 0 评论 -
5 Hadoop集群模式安装
1 hadoop源码编译2 集群角色规划3服务器基础环境准备4 Hadoop安装包目录结构5配置文件概述6 分发同步安装包7配置Hadoop环境变量1主机名(3台机器)vim /etc/hostnameHosts映射(3台机器)vim /etc/hosts防火墙关闭(3台机器)systemctl stop firewalld.service #关闭防火墙systemctl disable firewalld.service #禁止防火墙开启自启原创 2022-02-09 10:41:44 · 379 阅读 · 0 评论 -
4 Hadoop集群简介
1 Hadoop集群整体概述2 理解1Hadoop和yarn集群互相之间没有依赖,互不影响2某些角色进程往往部署在同一物理服务器上3mapreduce是计算框架、代码层面的组件,没有集群之说3总结分布式与集群的区别?1分布式是将不同的业务分布在不同的地方2集群是将几台服务器集中在一起,实现同一业务Hadoop集群=hdfs集群+yarn集群2个集群逻辑上分离,物理上在一起,两个集群都是标准的主从架构集群hdfs集群(分布式存储)主角是namenode从角色datanode原创 2022-02-09 10:43:45 · 386 阅读 · 0 评论 -
3 hadoopHadoop发行版本、架构变迁
1 Hadoop发行版本2 Hadoop架构变迁原创 2022-02-09 10:43:35 · 169 阅读 · 0 评论 -
2 hadoop特性优点
1hadoop特性有点2 hadoop国内外应用3总结hadoop特性1扩容能力强Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。2成本低Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低。看重的是集群整体能力3效率高通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快4可靠性能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计原创 2022-02-08 22:34:47 · 545 阅读 · 0 评论 -
1 hadoop介绍
1 hadoop介绍2 总结1狭义上Hadoop是apache的一款软件,广义上是指围绕Hadoop打造的大数据生态圈2Hadoop核心3组件hdfs (分布式文件存储系统) : 解决海量数据存储问题yarn (集群资源管理和任务调度):解决资源任务调度mapreduce :(分布式计算框架):解决海量数据计算3 doug cutting起源于搜索引擎nutch,灵感来自谷歌3论文...原创 2022-02-08 22:26:26 · 256 阅读 · 0 评论