林之风hhsk-CSDN博客

原创 storm 任务提交过程

storm提交topology任务大概分为5个角色，一是：client，二是nimbus，三是zookeeper，四是supervisor，五是worker下面介绍每个角色在任务提交的时候所做的一些操作：1.client：提交topology2.nimbus：这个角色所做的操作相对较多，具体如下： a.会把提交的jar包放到nimbus所在服务器的nimbus/inbox目录下

2017-09-19 18:08:42 2623 1

原创 storm Worker之间的通信

要理解worker之间的通信首先需要知道有哪些角色或组件参与其中，storm worker之间的通信包括以下角色：注意：tuple是消息传输的单元 1. Receiver Thread:接收线程，负责从其他worker接收tuple消息并根据taskid发送到相应的executer 2. Receiver Queue(incoming queue): 接收队列，所有从接收线程收到的

2017-09-19 11:38:42 1008

原创 secondary namenode元数据同步

secondary namenode（sn）同步namenode(nn)元数据的过程sn向nn请求是否需要同步元数据信息如果需要同步，则nn会滚动当前正在写的edits.inprogressingsn把所有的edits文件和fsimage文件下载到sn（只有第一次同步会下载nn的fsimage文件，后面同步只需要下载edits文件即可）在sn把edits文件和fsimage文件加载到内存合并

2017-09-12 14:01:34 1349

原创 yarn运行mapreduce的工作机制

yarn的基本概念yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）yarn中的主管角色叫ResourceManageryarn中具体提供运算资源的角色叫NodeManager这样一来，yarn其实就与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如m

2017-09-09 18:56:13 1075

原创看图说mapreduce的shuffle机制

看图说shuffle过程：　　mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle 1、shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作：partition分区（shuffle必要操作）sort排序，根据

2017-09-09 11:38:07 403

原创 maptask 个数（并行度）决定机制

一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为：一、将待处理的文件进行逻辑切片（根据处理数据文件的大小，划分多个split），然后每一个split分配一个maptask并行处理实例*二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下： 1.简单地按照文件的内容长度进行切片

2017-09-06 18:00:09 2977

原创 hdfs 下载文件（读数据）流程

需求：向hdfs下载文件text.txt1、向namenode请求要下载的text.txt，namenode返回文件所在的datanode块位置信息2、client挑选一台datanode（就近原则，然后再随机）服务器，请求建立socket流 3、datanode开始读取数据（从磁盘读取数据至流里面，以packet为单位来做校验）4、客户端以packet为单位接收，先缓存在本地，然后写入目

2017-09-04 09:46:05 800

原创 hdfs 上传文件（写数据）流程

hdfs 上传文件（写数据）流程需求：向hdfs上传 300M文件text.txt 到 /mydir 目录注意：客户端会把300M文件切分为128M（blk_1）、128M(blk_2）、54M（blk_3）三块，切块大小需要根据hadoop的配置来，2.x以上默认是128M1、向namenode请求上传文件 text.txt 到 hdfs的/mydir目录下2、namenode返回允许上传

2017-09-01 09:27:28 1747

原创 ssh 免密登录配置后还是无效

ssh 免密登录配置后还是无效配置ssh登录[hadoop@bigdata1~]$ mkdir .ssh[hadoop@bigdata1~]$ ssh-keygen -t rsa //执行命令一路回车，生成秘钥[hadoop@bigdata1~]$cd .ssh [hadoop@bigdata1.ssh]$ lsid_rsa id_rsa.pub[hadoop@bigdata1.

2017-07-31 11:04:17 8171 7

原创 Linux 免密登录的实现原理和验证方式

Linux 免密登录的实现原理和验证方式如题：有bigdata1免密登录到bigdata2需要在bigdata1上生成密钥和公钥把bigdata1的公钥复制到bigdata2的授权列表中 _ 具体验证如红色线步骤原理如图

2017-02-14 16:23:35 649

原创 Hadoop-HDFS的特点

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-05-14 17:02:43 5984