大数据
文章平均质量分 58
记录学习大数据的过程
zzyczzyc
越努力越幸运
展开
-
集群的时间同步
集群之间在执行任务的时候需要时间同步,分两种情况: 如果集群连接了外网,那么每个节点都可以和外网进行时间同步,不需要处理 如果集群没连接外网,需要配置集群中一台节点为时间服务器,其他节点同步它的时间 切换root用户 查看节点ntpd服务:systemctl status ntpd 查看是否开机自启动:systemctl is-enabled ntpd 修改参考时间节点的ntp.conf配置文件:vim /etc/ntp.conf,内容如下: (1)192.168.31.0-192.168.31.2原创 2021-03-13 23:30:31 · 681 阅读 · 0 评论 -
hadoop常用信息(脚本、端口号、配置文件)
文章目录脚本节点之间同步文件启动集群的hdfs 、yarn、历史记录服务器端口号配置文件 脚本 节点之间同步文件 #!/bin/bash if [ $# -lt 1 ] then echo not enough argument! exit; fi for host in hadoop1 hadoop2 hadoop3 do echo =======================$host===================== for file原创 2021-03-13 22:42:54 · 183 阅读 · 0 评论 -
Hadoop-启动集群
注意: NameNode和SecondaryNameNode不要放在同一个物理机上 ResourceManager是消耗内存,不要和NameNode、SecondaryNameNode放在同一个物理机上 hadoop1 hadoop2 hadoop3 HDFS NameNodeDataNode DataNode SecondaryNameNode DataNode Yarn NodeManager ResourceManagerNodeManager NodeManager h原创 2021-03-13 14:29:53 · 4059 阅读 · 0 评论 -
ZooKeeper
文章目录简介zookeeper的文件节点zookeeper的角色ZooKeeper的应用场景 简介 ZooKeeper : 分布式应用程序协调服务;也是一个集群,内部干的事就是提供少量数据的存储和管理、提供对数据节点的监听器。 如果client往zookeeper集群里面写数据,先通过leader,leader得到数据再让follower去备份 leader和follower的身份不是由搭建z...原创 2020-04-20 15:41:40 · 188 阅读 · 0 评论 -
Hadoop-Yarn框架
Yarm框架 ResourceManager :分配节点资源进行任务执行的管理者 NodeManager:内部会分配一个容器去执行ResourceManager分配的任务 job提交和分配机制 Hadoop在集群的某个节点(客户端)上执行作业的命令:hadoop jar xxxx ,这时候会启动一个RunJar进程,向ResourceManager申请:我需要执行job ResourceMa...原创 2020-04-17 12:22:42 · 163 阅读 · 0 评论 -
Hadoop的MapReduce
MapReduce 的过程分成两个部分: Map在每个节点上做block的局部处理,处理完交给Reduce节点 Reduce节点做汇总工作 例子:统计单词的逻辑图原创 2020-04-16 13:07:44 · 236 阅读 · 0 评论 -
Hadoop中的RPC机制
RPC的底层原理 远程过程调用(一台主机和另一台在网络上相互调用方法、进行通信的过程),底层依然通过带参数的socket通信,socket依赖tcp、ip这些底层网络协议。 RPC是hadoop基于底层的通信封装的远程通信协议,主要用与各个节点之间的通信(客户端和NameNode、DataNode和DataNode之间) ...原创 2020-04-16 12:07:53 · 212 阅读 · 0 评论 -
Hadoop-分布式文件系统HDFS
文章目录HDFS的shell命令HDFS的架构例子:上传一个文件的过程NameNode如何管理元数据NameNode的职责DataNode的工作原理 HDFS的shell命令 既然是一个文件系统,它有对文件的基本操作(类似linux里面的cp、mv、ls等) 调用方式:把hadoop里面的bin添加到环境变量 hadoop fs -ls / #查看HDFS的根目录 hadoop fs -mkdi...原创 2020-04-15 19:06:43 · 184 阅读 · 0 评论 -
Hadoop简介
Hadoop出现 痛点:数据量大,需要并发,单机中采用多线程、多进程等,但是依然还是一台机器,最多也就充分利用一个计算机资源,需要集群并发处理,多个进程分布到多个机器中要比在单个机器中更复杂,涉及网络通信、数据之间同步等 解决:Hadoop框架的出现解决这些海量数据在不同节点计算、存储、分析、调度等问题,让研发人员更关注业务逻辑,降低研发成本。 note: hadoop不是一个存储大量...原创 2020-04-14 13:54:24 · 138 阅读 · 0 评论