![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
努力向上的大数据蜗牛
这个作者很懒,什么都没留下…
展开
-
HA集群的搭建
HA分析友情提示:在搭建HA集群前,可对当前虚拟机集群拍照,防止搭建失误永久丢失集群前提:集群上已经搭建好了hadoop,java,zookeeper分析:集群目前存在的问题单点故障:NN是hdfs的老大,但是只有一台,比如NN配置在hadoop102上面,则102不能挂,这个就是单点故障,搭建HA集群的核心目的就是消除单点故障,解决方案就是搭建多个NN需要解决的几个问题:思考:为什么NN挂掉之后2NN(SecondaryNameNode)不能直接替代NN工作? 因为2NN中对NN的数据做原创 2020-07-28 21:33:01 · 681 阅读 · 0 评论 -
MapReduce程序中的自定义序列化和比较器的实现
提问:在一个MR程序中,我们为什么要自定义一个序列化和比较器呢? 个人理解:在MR程序中,基本数据类型的序列化类都是定义好了的,我们不需要过多的操心,但是很多时候,基本的数据类型并不能满足我们的需求,这时候我们就需要定义一个包装类作为我们需要的k或v值,我们自己定义的类并没有实现序列化,无法在MR中数据识别,这时候我们就必须得实现Writable接口; 在此基础上,如果我们将自己的类想按照自己想要的排序方式进行排序,我们就必须得同时实现Comparable接口 注意: ①要实现序列化和比较器原创 2020-07-28 17:01:38 · 251 阅读 · 0 评论 -
zookeeper监听原理和选举机制
一.监听器原理1.监听器原理详解 1.开始启动一个main线程 2.在main线程中创建Zookeeper客户端,同时会创建两个线程, connet(负责通信)|||listener(负责监听) 3.通过connet线程将注册的监听事件发送给Zookeeper 4.Zookeeper收到注册的监听事件后将其添加进注册监听列表 5.Zookeeper监听到有路径或数据的变化就会将这个消息发送给listener线程 6.listener调用process()方法2.监听机制图解原创 2020-07-27 18:15:39 · 265 阅读 · 0 评论 -
hadoop个人总结
一.hadoop入门–HDFS1.大数据特点大量 ; 高速 ; 多样 ;低价值密度2.hadoop是什么hadoop是由Apache基金会所开发的分布式系统基础架构主要解决:海量数据的存储和海量数据的分析计算问题3.hadoop的优势a.高可靠性:多副本机制,有某个计算元素或存储出现故障,数据也不会流失b.高扩展性c.高效性:基于MapReduce的思想机制,hadoop并发工作d.高容错性:能够自动将失败的任务重新分配4.hadoop组成1原创 2020-07-26 19:56:49 · 3436 阅读 · 0 评论 -
MapReduce压缩小结
压缩1.压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。2.压缩原则 压缩是提高Hadoop运行效率的一种优化策略。 通原创 2020-07-26 15:17:42 · 184 阅读 · 1 评论 -
hadoop基础组成图
原创 2020-07-26 14:40:20 · 177 阅读 · 0 评论 -
hadoop安装个人心得
1.模板虚拟机操作1.新建一个虚拟机,内存4G,磁盘50G2.ping www.baidu.com 检查是否可以正常联网3.关闭防火墙,关闭防火墙开机自启systemctl stop firewalldsystemctl disable firewalld4.创建一个atguigu用户,并修改用户密码useradd atguigupasswd atguigu5.配置atguigu用户具有root权限,方便后期加sudo执行root权限命令vim /etc/sudoers修原创 2020-07-26 13:43:43 · 5513 阅读 · 2 评论