自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Hadoop winutils.exe 下载地址

https://github.com/sdravida/hadoop2.6_Win_x64/blob/master/bin/winutils.exe

2021-04-02 10:58:08 1875

原创 Hbase个人笔记总结

第一章.Hbase简介1.1Hbase的定义​ HBase是一种分布式的,可扩展的,用于海量数据存储的nosql数据库.1.2HBase的应用场景​ 实时使用1.3HBase数据模型​ 1.列簇:相当于mysql中的字段​ 2.列限定符:数据的一部分​ 3.rowkey:相当于mysql中的主键.mysql中是有序的,HBase中是***按字典排序***的​ 4.region:表的分段.因为每个region是有序的,所以每个region中都有起始row和结束row.[范围前闭后开]​ 5

2020-08-28 21:26:19 166

原创 HA集群的搭建

HA分析友情提示:在搭建HA集群前,可对当前虚拟机集群拍照,防止搭建失误永久丢失集群前提:集群上已经搭建好了hadoop,java,zookeeper分析:集群目前存在的问题单点故障:NN是hdfs的老大,但是只有一台,比如NN配置在hadoop102上面,则102不能挂,这个就是单点故障,搭建HA集群的核心目的就是消除单点故障,解决方案就是搭建多个NN需要解决的几个问题:思考:为什么NN挂掉之后2NN(SecondaryNameNode)不能直接替代NN工作?​ 因为2NN中对NN的数据做

2020-07-28 21:33:01 687

原创 MapReduce程序中的自定义序列化和比较器的实现

提问:在一个MR程序中,我们为什么要自定义一个序列化和比较器呢?​ 个人理解:在MR程序中,基本数据类型的序列化类都是定义好了的,我们不需要过多的操心,但是很多时候,基本的数据类型并不能满足我们的需求,这时候我们就需要定义一个包装类作为我们需要的k或v值,我们自己定义的类并没有实现序列化,无法在MR中数据识别,这时候我们就必须得实现Writable接口;​ 在此基础上,如果我们将自己的类想按照自己想要的排序方式进行排序,我们就必须得同时实现Comparable接口​ 注意:​ ①要实现序列化和比较器

2020-07-28 17:01:38 267

原创 zookeeper监听原理和选举机制

一.监听器原理1.监听器原理详解​ 1.开始启动一个main线程​ 2.在main线程中创建Zookeeper客户端,同时会创建两个线程,​ connet(负责通信)|||listener(负责监听)​ 3.通过connet线程将注册的监听事件发送给Zookeeper​ 4.Zookeeper收到注册的监听事件后将其添加进注册监听列表​ 5.Zookeeper监听到有路径或数据的变化就会将这个消息发送给listener线程​ 6.listener调用process()方法2.监听机制图解

2020-07-27 18:15:39 282

原创 hadoop个人总结

一.hadoop入门–HDFS1.大数据特点大量 ; 高速 ; 多样 ;低价值密度2.hadoop是什么hadoop是由Apache基金会所开发的分布式系统基础架构主要解决:海量数据的存储和海量数据的分析计算问题3.hadoop的优势a.高可靠性:多副本机制,有某个计算元素或存储出现故障,数据也不会流失b.高扩展性c.高效性:基于MapReduce的思想机制,hadoop并发工作d.高容错性:能够自动将失败的任务重新分配4.hadoop组成1

2020-07-26 19:56:49 3457

原创 MapReduce压缩小结

压缩1.压缩概述​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。​ 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。2.压缩原则​ 压缩是提高Hadoop运行效率的一种优化策略。​ 通

2020-07-26 15:17:42 206 1

原创 hadoop基础组成图

2020-07-26 14:40:20 193

原创 hadoop安装个人心得

1.模板虚拟机操作1.新建一个虚拟机,内存4G,磁盘50G2.ping www.baidu.com 检查是否可以正常联网3.关闭防火墙,关闭防火墙开机自启systemctl stop firewalldsystemctl disable firewalld4.创建一个atguigu用户,并修改用户密码useradd atguigupasswd atguigu5.配置atguigu用户具有root权限,方便后期加sudo执行root权限命令vim /etc/sudoers修

2020-07-26 13:43:43 5555 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除