自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 偶有所感

代码层面而言 指令构成了代码 代码块的封装 类 函数 过程 包等组成了线程/协程的行为 线程/协程之间的交互形成进程 分散在各个机器上的进程之间的交互形成有意义的服务 各种各样的服务组成了一般人能感受到的互联网 可以看做是互联网的灵魂物理层面而言 cpu 内存 输入输出设备组成了一般人能接触到的终端设备 终端设备和路由器 交换机 线缆 无线传输设备等一起构成了互联网的骨架代码也好 文档也罢 都是表达思想的工具之一 修炼思想很重要 修炼表达能力也很重要 思想修炼得再好但却表达不出来 又有啥子用知识太多

2020-12-16 15:37:08 264 1

原创 大数据&深度学习学习路线

现如今,IT互联网行业热度最高的技术领域要数大数据、云计算和人工智能了,我从13年毕业时就进入了大数据技术领域工作,在此简要谈谈自己的学习历程,希望对后来者有所启发。其实在我大学刚毕业时(2013年),最火的技术领域是移动互联网,加上自己在校期间学过Android项目的开发,因此最开始找工作时也只是奔着做Android开发的岗位去的,只不过阴差阳错的进了一个做大数据的团队,不过现在看来,弃Android转BigData并没有选错。在刚接触大数据的时候,我并没有着急的去玩各种大数据开源项目,而是先去把理论搞

2020-07-03 15:41:49 1351

原创 Logstash

Logstash1、简介Logstash是一个用ruby写的收集日志的工具,通过部署在应用程序运行节点上的agent来收集、解析、过滤日志,然后将过滤出的日志分发到各个目的地,目的地可以是文件,甚至是一个系统,比如opentsdb、elasticsearch等。业界对于日志管理的方法通常是logstash+elasticsearch+kibana(ELK),其中logs...

2019-05-23 17:22:06 1622

原创 仿hadoop RPC机制的代码实现

以下给出了所有的代码,除了protoc编译出的协议类的代码(这两个类代码太多了),包的组织方式同hadoop rpc一样,服务端启动时运行CalculatorService.java。功能很简单,就是实现加减法,但采用了类似hadoop rpc的机制,麻雀虽小,五脏俱全1,Server类,仿hadoop rpc的server实现package com.zxf.rp...

2019-05-23 17:19:53 127

原创 Yarn

背景Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的comm...

2019-05-23 17:18:05 256

原创 HDFS HA QJM源码分析

Hadoop QJM的实现用到了paxos算法,pasos算法是是莱斯利·兰伯特于1990年提出的一种基于消息传递的一致性算法。这个算法被认为是类似算法中最有效的。pasos算法用在hadoop HA的实现里面就是要确保active namenode和standby namenode的状态保持一致。在hadoop的源码里的ha包下有一个EditLogTailer类...

2019-05-23 17:16:28 298

原创 Hadoop Namenode启动过程分析

Namenode启动过程分析我这里所讲的是hadoop-0.20.2-cdh3u1版本已regular方式启动时的代码流程分析。在namenode启动时会首先去构造Configuration对象,这个对象会贯穿代码的整个执行过程,不过在构造的时候它并没有去加载解析core-site.xml,hdfs-site.xml等配置文件,而是在第一次要使用到这些配置的时候才去解析,解析后保存在C...

2019-05-23 17:14:34 308

原创 Hadoop源码环境搭建、代码结构简介及MR代码

Hadoop源码环境搭建,强烈建议使用linux/mac系统安装maven 安装git 安装protoc,版本2.5.0 安装Eclipse 下载hadoop源码,git clone https://github.com/apache/hadoop.git 进入到源码的hadoop-maven-plugins目录,执行mvn install 设置环境变量HADOOP_P...

2019-05-24 09:42:43 551

转载 远程调试HADOOP

ZZ fromhttp://blog.csdn.net/qiaochao911/article/details/9714763Thanks to小桥远程调试对应用程序开发十分有用。例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序。其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备...

2019-05-24 09:41:32 140

原创 HDFS 目录长度深度限制

HdfsConstants类中定义public static final int MAX_PATH_LENGTH = 8000;public static final int MAX_PATH_DEPTH = 1000;

2019-05-23 17:25:55 692

原创 HDFS DataNode写数据选目录逻辑

callstack:FsVolumeList.getNextVolume(StorageType,long)----->FsVolumeList.chooseVolume(List,long)----->RoundRobinVolumeChoosingPolicy.chooseVolumn(List,long)ORFsVolumeList.getNextV...

2019-05-23 17:25:06 228

原创 编译hadoop2.7.1

1. git clone git@github.com:ZhangXFeng/hadoop2.7.1.git2. cd src/hadoop-maven-plugins/3.mvn install4.安装protoc,执行export HADOOP_PROTOC_PATH=/usr/local/bin/protoc5.mvn compile -X

2019-05-23 17:24:08 191

转载 同步、异步、阻塞、非阻塞的区别

“阻塞”与"非阻塞"与"同步"与“异步"不能简单的从字面理解,提供一个从分布式系统角度的回答。1.同步与异步同步和异步关注的是消息通信机制(synchronous communication/ asynchronous communication)所谓同步,就是在发出一个*调用*时,在没有得到结果之前,该*调用*就不返回。但是一旦调用返回,就得到返回值了。换句话说,就是由*调用者*主动等待...

2019-05-23 17:23:21 130

原创 hadoop metrics2源码分析

设计文档看这里http://wiki.apache.org/hadoop/HADOOP-6728-MetricsV2。最近做项目码代码的时候想着是否可以实现一个子系统来监测整个项目的运行情况,虽说也不是什么了不起的大项目,但有这么个功能总归是好的,也顺便提升一下自己的软件设计的能力。以前就大致看过hadoop metrics 子系统的代码实现,趁这个机会,我又仔细去调了一下nameno...

2019-05-23 17:21:07 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除