Hadoop
文章平均质量分 75
Hadoop学习个人笔记
书香恋仁心
万古如长夜
展开
-
07-HDFS入门及shell命令
Hadoop分布式文件系统。是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。分布式文件系统解决大数据如何存储的问题。分布式意味着是横跨在多台计算机上的存储系统。HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错,适用于具有大数据集的应用程序,它非常适于存储大型数据(比如 TB PB)HDFS使用多台计算机存储文件,并且提供统一的访问接口,像是访问一个普通的文件系统一样使用分布式文件系统。原创 2023-08-13 15:55:25 · 1662 阅读 · 0 评论 -
06-hadoop集群搭建(root用户)
format操作只在hadoop集群初次启动时执行一次 format多次会造成我们数据的丢失,还可能会造成Hadoop集群主从角色之间相互不识别(解决方法:将所以节点的hadoop.tmp.dir目录删除,删除所有机器的data和logs目录删除,后重新格式化)原创 2023-08-13 15:54:12 · 605 阅读 · 0 评论 -
05-Hadoop集群部署(普通用户)
format操作只在hadoop集群初次启动时执行一次 format多次会造成我们数据的丢失,还可能会造成Hadoop集群主从角色之间相互不识别(解决方法:将所以节点的hadoop.tmp.dir目录删除,删除所有机器的data和logs目录删除,后重新格式化)原创 2023-08-13 15:50:22 · 841 阅读 · 1 评论 -
04-搭建Hadoop集群推荐使用普通用户
在安装Hadoop时,可以创建一个专门的Hadoop用户,并将其添加到Hadoop用户组中。然后,将Hadoop安装目录和数据目录的所有权和权限分配给Hadoop用户和Hadoop用户组。这样,只有Hadoop用户和Hadoop用户组才能访问和修改Hadoop相关的文件和目录,其他用户则没有权限。使用root用户管理可能会带来一些安全风险,因为root用户具有最高的权限,如果被黑客攻击或者误操作,可能会导致整个系统崩溃或者数据丢失。总之,使用普通用户管理Hadoop集群是一种更加安全和可控的方式。原创 2023-08-13 15:53:41 · 398 阅读 · 0 评论 -
03-xsync集群分发脚本(普通用户)
当我们在集群中一台机器上配置好服务以后,不想重复的在集群中的其他机器重复配置是,可以循环复制文件到所有节点的相同目录下。原创 2023-08-13 15:52:26 · 257 阅读 · 0 评论 -
02-SSH免密登录(普通用户)
说明: 假设我们在 NameNode节点部署在kk01 SecondNameNode节点部署在kk03,ResourceManager 部署在 kk02 kk01上的 NameNode 需要分别到kk01、kk02、kk03上启动DataNode,因此需要配置ssh免密到其他机器 kk02上的 ResourceManager 需要分别到kk01、kk02、kk03上启动NodeManager,因此需要配置ssh免密到其他机器。原创 2023-08-13 15:51:45 · 306 阅读 · 0 评论 -
01-集群安装JDK(普通用户)
如下查看。原创 2023-08-13 15:51:13 · 920 阅读 · 0 评论 -
00-Hadoop入门
1)高可靠性Hadoop底层维护多个数据副本,所有即使hadoop某个计算元素或存储故障,也不会造成数据丢失2)高扩展性在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性在mapreduce的思想下,Hadoop是可以并行工作的,以加快任务处理的速度。4)高容错性能够自动将失败的任务重新分配1),比如毫秒级的存储数据,它做不到2)存储大量小文件,他会占用大量的NameNode大量的内存来存储文件目录和快信息。这样是不可取的,因为NameNode内存是有限的。原创 2023-08-02 12:02:14 · 731 阅读 · 0 评论