![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
ZJ_2459
这个作者很懒,什么都没留下…
展开
-
Hbase存储相关
HBASE 的存储机制:region(区域):表上的一块数据store:逻辑上的列簇memstore列簇缓冲区:保存热数据(最近浏览,更新等操作的数据)region server的工作职责:管理region 和 响应io请求数据可靠性的体现:1、如果一个region server挂了 :写日志 HLOG()一个server只有一个HLOG,对数据的操作 根据rowk...原创 2019-02-28 17:57:25 · 152 阅读 · 0 评论 -
shuffle过程个人总结
shuffle过程我只简单总结一下流程,这里先不分析相关的东西,分别看MR的shuffle和spark的shuffle一 、MR的shufflemap方法业务逻辑处理结果放入OutputCollector输出收集器,放入环形缓冲区(默认100M,其中数据区占80%,20%为保留区),当数据超过80%,指针会指向保留区继续让map写数据,数据区的数据会写入溢出器,并由溢出器进行分区(利用hash...原创 2019-03-02 09:31:16 · 332 阅读 · 0 评论 -
Hadoop_HDFS的读写流程
HDFS的读操作:1、跟namenode通信查询元数据(block所在的datanode节点),找到文件块所在的datanode服务器2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件,后面的block块就...原创 2019-02-26 21:14:36 · 227 阅读 · 0 评论 -
关于zookeeper的一些小结
zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务的,其本身也是一个分布式程序,只要半数以上的服务器存活,就能运行zookeeper的组成:一个leader,多个followerzookeeper的特性:1、全局数据一致性:每个server有一份相同的数据,client无论连接那台服务器,都可以得到相同的数据2、分布式读写,更新请求转发:由leader实时数据更...原创 2019-02-26 21:35:13 · 282 阅读 · 0 评论 -
ZooKeeper 典型的应用场景
Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生 变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式,关于 Zookeeper 的详细架构等内部细节可以阅读 Zookeeper 的...转载 2019-02-26 21:44:10 · 193 阅读 · 0 评论 -
MR流程总结
maptask的数量由客户机的切片信息决定的一、在我们提交完MR程序之后,MR程序会先后经历map,reduce阶段,下面我们详细的来解析一下各个阶段:1、map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段(1)、在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-val...原创 2019-02-26 21:48:58 · 2087 阅读 · 0 评论