![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
unhurried人生——冕临
这个作者很懒,什么都没留下…
展开
-
搭建Hadoop HA集群
yarn.resourcemanager.store.class:用于Resourcemanager状态存储的类,默认为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore,基于Hadoop文件系统的实现。另外,还可以指定org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore,该类为基于ZooKeeper的实现。原创 2022-09-23 18:22:42 · 1319 阅读 · 0 评论 -
Hadoop HA 高可用
HA,即高可用(7*24 小时不中断服务)。实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。在Hadoop2.0版本之前,HDFS集群中一旦NameNode节点所在的机器发生意外,如宕机,集群将无法使用,直到管理员重启。或者NameNode节点的机器需要升级,包括软件、硬件升级,此时集群也将无法使用。HDFS HA就是为了解决上述问题。原创 2022-09-22 16:59:08 · 865 阅读 · 0 评论 -
搭建ZooKeeper分布式集群
其中,id值必须在整个集群中是唯一的,且大小在1到255之间,host是服务器的名称或者IP地址,第一个端口号(port1)是Leader端口,即该服务器作为Leader是供Follower连接的端口,第二个端口号(port2)是选举端口,即选举Leader服务器时供其他Follower连接的端口。tickTime:Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。集群启动成功,搭建完成。原创 2022-09-21 19:06:56 · 325 阅读 · 0 评论 -
ZooKeeper基础知识
ZooKeeper是一个分布式应用协调服务,主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储,主要用途是维护何监控所存数据的状态变化,以实现对集群的管理。在分布式环境里,往往会有很多服务器都需要同样的配置来保证信息的一致性和集群的可靠性,而一个分布式集群往往会有上百台服务器,一旦配置信息改变,就需要对每台服务器进行修改,这样会消耗大量时间。原创 2022-09-20 14:03:44 · 847 阅读 · 0 评论 -
Yarn基础知识
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源(内存、CPU),相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。Yarn其实是一个通用的资源管理系统,所谓资源管理,就是按照一定的策略将资源分配给各个应用程序使用,并且会采取一定的隔离机制防止应用程序之间彼此抢占资源而相互干扰。原创 2022-09-19 17:41:42 · 705 阅读 · 0 评论 -
MapReduce案例之单词计数
单词计数是MapReduce的入门程序,跟编程语言当中的“Hello world”一样。原创 2022-09-18 15:57:07 · 1294 阅读 · 0 评论 -
MapReduce程序编写
Hadoop支持多种语言开发MapReduce程序,但是对JAVA语言的支持最好。编写一个MapReduce程序需要新建三个类:Mapper类、Reduce类、驱动类。Mapper类何Reduce类也可以作为内部类放在程序执行主类中。原创 2022-09-17 18:11:54 · 2724 阅读 · 0 评论 -
MapReduce基础知识
MapReduce是一个分布式运算程序的编程框架,是用户开发“于Hadoop的数据分析应用”的核心框架。使用该框架编写的应用程序能够以一种可靠的、容错的方式并行处理大型集群上的大量数据,也可以对大数据进行加工、挖掘和优化等处理。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。原创 2022-09-16 18:19:41 · 723 阅读 · 0 评论 -
HDFS JAVA API
org.apache.hadoop.fs.FileSystem:一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有可能使用Hadoop文件系统的代码都要使用到这个类。org.apache.hadoop.fs.FileStatus:一个接口,用于向客户端展示系统中文件和目录的元数据,具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。原创 2022-09-12 21:12:07 · 1280 阅读 · 0 评论 -
HDFS命令行
在Linux终端窗口,可以利用Shell命令对Hadoop进行操作。利用这些命令可以完成HDFS中文件的上传、下载、复制、查看文件信息、格式化名称节点等操作。若没有配置Hadoop的系统PATH变量,则需要进入到Hadoop的安装目录下/bin目录中执行。原创 2022-09-11 19:38:01 · 2436 阅读 · 0 评论 -
HDFS基础知识
HDFS是Hadoop项目的核心子项目,在大数据开发中通过分布式计算对海量数据进行存储与管理。它基于流数据模型访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。原创 2022-09-09 19:01:40 · 1477 阅读 · 0 评论 -
搭建Hadoop分布式集群
yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle才可运行Mapreduce程序。yarn.resourcemanager.address:指定ResourceManager所在的节点与访问端口,如果不添加,ResourceManager则默认执行在YARN启动命令的节点上启动。dfs.datanode.data.dir:DataNode节点数据在本地文件系统的存放位置。指定 Mapreduce。原创 2022-09-06 14:48:36 · 249 阅读 · 0 评论 -
Hadoop基础知识
如果不同框架组成的集群相互独立,随着数据增长,跨集群间的数据移动需要耗费更长的时间,而共享集群方式通过共享集群间的数据和资源,大大节省了数据移动时间并降低了成本。如果不同框架组成的集群相互独立,必然会导致资源的利用不充分,甚至出现资源紧张的情况,而共享集群的方式可以使多个框架共享集群资源,提高了资源利用率。高扩展性:Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,用于实时计算的场景较多。原创 2022-09-05 20:46:50 · 1212 阅读 · 0 评论