hadoop
大数据那些事
公众号(大数据技术与应用实战),分享一些在工作和学习过程中的大数据实战案例
展开
-
hadoop源码解析之RPC分析
前言准备工作Hadoop rpc实现流程定义接口实现接口启动一个server构建一个client的代理执行相应的方法Server底层实现内部类介绍CallConnectionHandlerListenerReaderResponderServer的启动接收请求Reader线程读取数据Handler线程处理请求客户端实现获取代理发送请求总结前言因为hado原创 2017-03-02 20:24:21 · 2614 阅读 · 0 评论 -
hadoop2.7.3源码解析之hadoop RPC使用
概述namenode提供服务客户端获取代理客户端具体的发送数据流程ClientNamenodeProtocolPB序列化相应的方法发送序列化之后的数据服务端反序列化概述在以前的博客中,我简单的介绍了一下hadoop rpc框架的实现流程(http://blog.csdn.net/zhangjun5965/article/details/59653549),这一小节主要介绍一下在hdfs原创 2017-08-22 10:23:45 · 1075 阅读 · 0 评论 -
hadoop源码解析之hdfs写数据全流程分析---datanode处理
概述因为在hdfs这样一个复杂的分布式文件系统中,每个文件都是由多个block组成的,每个block又有多个副本,这些副本分布在不同的机器上,所以对于hdfs的写操作流程,就算不考虑异常的处理,其实该流程也是hdfs中最复杂的流程了。原创 2017-07-15 13:06:35 · 2373 阅读 · 0 评论 -
hadoop源码解析之hdfs写数据全流程分析---客户端处理
DFSOutputStream介绍DFSOutputStream概况介绍DFSOutputStream重要的变量数据处理线程类DataStreamer响应处理类ResponseProcessor处理流程客户端发数据到dataQueueDataStreamer处理dataQueue中的数据处理错误创建输出数据流,发送数据向nameno...原创 2017-07-21 22:08:48 · 417 阅读 · 0 评论 -
hadoop2.7.3源码解析之HA架构分析
整体架构概述具体分析ZKFailoverController概述启动HealthMonitorActiveStandbyElector整体架构概述在hadoop 1.0的时候,hadoop集群只有一个namenode,一旦namenode挂掉了,整个集群就会不可用,hadoop 的HA机制(High Availability)就是为了解决上述问题而产生的。 在HA机制中,总共会有两个n原创 2017-08-07 07:56:41 · 1412 阅读 · 1 评论 -
hadoop2.7.3源码解析之hdfs删除文件全流程分析
客户端删除文件namenode删除文件从命名空间删除文件将相应的数据块加到InvalidateBlocks中ReplicationMonitor监控线程心跳生成删除命令datanode删除相应的block并汇报心跳处理删除命令异步单独开启线程删除磁盘数据向namenode汇报删除的块namenode处理删除block的汇报总结客户端删除文件先来一段简单的代码,用java的api原创 2017-07-30 14:11:11 · 2952 阅读 · 1 评论 -
hadoop源码解析之hdfs读取数据全流程分析
概述DataXceiverServer介绍了解DataXceiverServer初始化工作工作原理DataXceiver介绍Op类介绍处理逻辑BlockSender 读取数据传统方式实现数据传输零拷贝实现数据传输原理具体操作客户端读数据流程分析java api读取数据构造DFSInputStreamDFSInputStream read 数据Sender发送数据总原创 2017-05-20 20:14:36 · 2514 阅读 · 0 评论 -
hadoop源码学习之namenode启动
概述namenode格式化namenode的启动整体流程服务启动流程详解pendingReplicationsdatanodeManagerreplicationThreadblockReportThread概述hdfs主要包括两类节点,namenode和datanode,所以hdfs的启动也就是这两类节点的启动. namenode管理者所有的datanode信息、数据块信息等,原创 2017-04-18 21:53:22 · 1944 阅读 · 0 评论 -
hadoop源码解析之hdfs内部结构分析
概述命名空间Namesystem文件目录管理i-node介绍linux i-node介绍hdfs的 INode介绍INodeFileINodeDirectory块管理数据块BlockInfoContiguous集群中所有的块的管理DatanodeStorageInfo 数据节点存储总结概述hdfs的内部的文件和目录是如何以树的结构存储的,每个文件对应的块是如何存储的,每个块对原创 2017-05-23 07:09:13 · 1078 阅读 · 0 评论 -
hadoop源码解析之hdfs写数据全流程分析---客户端处理
DFSOutputStream介绍DFSOutputStream概况介绍DFSOutputStream重要的变量数据处理线程类DataStreamer响应处理类ResponseProcessor处理流程客户端发数据到dataQueueDataStreamer处理dataQueue中的数据处理错误创建输出数据流发送数据向namenode申请数据块连接到第一个datanode建立原创 2017-07-15 13:03:51 · 2913 阅读 · 2 评论 -
hadoop2.7.3源码解析之datanode注册和心跳机制
datanode注册和心跳datanode注册datanode心跳namenode接收注册和心跳信息DatanodeManager简单介绍namednoe接收注册的信息namenode 接收心跳信息datanode注册和心跳在hadoop启动的时候,正常的流程是先启动namenoe,然后启动datanode,因为namenode要接受datanode的注册,datanode的注册和心跳是原创 2017-07-20 23:17:57 · 2497 阅读 · 0 评论 -
hadoop源码解析之hdfs写数据全流程分析---创建文件
概述DFSClient创建文件namenode创建文件概述hdfs中写数据应该是hdfs中最复杂的业务之一了,hadoop中的每个文件由多个block组成,每个块又有多个备份,这些备份又放在了不同的机器上,所以新建文件的时候会向namenode申请block所在的机器。hdfs中每个block默认情况下是128M,由于每个块比较大,所以在写数据的过程中是把数据块拆分成一个个的数据包以管道的形式原创 2017-07-09 17:37:38 · 1915 阅读 · 0 评论 -
大数据开源组件图谱
转载自:https://blog.csdn.net/u010039929/article/details/70157376文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台文件系统HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高...转载 2019-02-27 15:18:14 · 1449 阅读 · 0 评论