大数据——核心平台Hadoop
文章平均质量分 85
Hadoop是一个适合海量数据的分布式存储和分布式计算的平台
友培
感觉数据+AI之美
展开
-
关于NameNode上存储Block块的相关信息深入理解
关于NameNode上存储BLock块的相关信息深入理解 介绍一个专用名称:blockReport,DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息的过程叫做blockReport 在NameNode启动加载fsimage中加载时候,是没有bLock的一个映射信息的(即我们不知道该block具体存储在哪几个节点上),而在所有datanode启动时,每个datanode对磁盘进行扫描,将自身的块信息汇报给NameNode(blockRepo原创 2021-01-20 10:22:46 · 1946 阅读 · 0 评论 -
Hadoop学习视频心得(八)高可用(HA)
1、HA的实际含义 给NameNode启用一个热备(备份),Hadoop2.x只支持两个NameNode,Hadoop3.x可以支持多个。2、HDFS-HA自动故障转移工作机制 HA的自动故障转移依赖于ZooKeeper的以下功能:1)故障检测:集群中的每个NameNode在ZooKeeper中维护了一个持久会话,如果机器崩溃,ZooKeeper中的会话将终止,ZooKeeper通知另一个NameNode需要触发故障转移。2)现役NameNode选择:ZooKeeper提供了一个简单的机原创 2021-01-09 19:38:29 · 193 阅读 · 0 评论 -
Hadoop学习视频心得(七)数据压缩、yarn、hadoop优化
1、从Windows向Yarn上提交源码(wordcount举例)1)、步骤①、driver文件添加必要配置信息/** * 在给定的文本文件中统计输出每一个单词出现的总次数 */public class WcDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { //获取配置信息以及封装任务原创 2021-01-06 18:50:25 · 257 阅读 · 0 评论 -
Hadoop学习视频心得(六)Shuffle补充、OutputFormat、join、ETL
1、Shuffle机制的大致讲解1)、数据在环形缓冲区中排序的流程 在环形缓冲区的数据是已经序列化好的数据,在此缓冲区内compare去比较这两个数,得到一个结果(可能需要交换也可能不需要交换,如果交换的话),再按照此结果去交换这两个数的索引(数据的长度是不一定的,索引的长度是固定的),执行此过程后写出来的数据就是排完序的数据; 分区排序一并完成:先按照分区号排序,之后再按照K值大小排序。(二次排序)2)、默认大小和上限 环形缓冲区的默认大小为100M,上限为80%3)、第一次使用原创 2021-01-02 13:33:22 · 146 阅读 · 0 评论 -
Hadoop学习视频心得(五)Shuffle机制
1、如何在网页打开hdfs上直接操作<property> <name>hadoop.http.staticuser.user</name> <value>root</value></property>这样就授权为root,还是要根据自己虚拟机hadoop的权限来设置2、对比Map、MapTask、Mapper、Mapper.mapMap阶段:是抽象的概念,在这个时期实际执行原创 2021-01-01 15:10:00 · 173 阅读 · 0 评论 -
Hadoop学习视频心得(四)MapReduce的InputFormat阶段
1、Hadoop序列化1)、概述2)、提问:为什么不用java序列化框架?3)、举例:统计每一个手机号耗费的总上行流量、下行流量、总流量 mapper–>reduce需要经历网络传输,数据需要序列化,类似于把数据装入一个容器内(序列化的时候框架会调用write方法),reduce拿到这个数据后要先打开这个容器(反序列化的时候框架调用readFilelds方法),会创建一个对象,让传过来的数据填充这个类(注意会顺序的放顺序的拿)①、Bean类的书写public class FlowB原创 2020-12-29 16:40:00 · 129 阅读 · 0 评论 -
Hadoop学习视频心得(三)引入MapReduce
1、NameNode(NN)和Secondary NameNode(2NN)工作机制1)、思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如原创 2020-12-28 21:47:01 · 261 阅读 · 0 评论 -
Hadoop学习视频心得(二)HDFS的引入
一、日志问题1、发现问题:看运行日志(框架目录的logs文件夹,/var/log/框架名称)2、分析原因:日志是一行一行的,每行都有日志级别INFO、WARN、ERROR、FATAL命令行:tail -n 1000日志文件名3、解决:根据原因解决问题①、搭建完集群,格式化成功,启动失败,重新格式化,启动又失败,关闭集群,三台机器都要删除数据;②、xsync同步,启动集群,host unreachable,can’t resovle hostname,unknown host except原创 2020-12-27 16:04:55 · 224 阅读 · 0 评论 -
Hadoop学习视频心得(一)初识Hadoop
yarn架构:ResoureManager(RM) 多个NodeManager(NM)因而yarn相当于一个资源池RM主要作用为:1、处理客户端的请求2、监控Nodemanager3、启动或监控ApplicationMaster4、资源的分配与调度NM主要作用为:1、管理单个节点上的资源2、处理来自ResourceManager的命令3、处理来自ApplicationMaster的命令ApplicationMaster(AM)作用:1、负责数据的切分2、为应用程序申请资源并原创 2020-12-27 15:59:46 · 111 阅读 · 0 评论