2018年09月_ZFH__ZJ

原创 4、CentOS7安装MySQL

下载并安装MySQL官方的Yum Repository[root@hadoop-100 software]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm[root@hadoop-100 software]# yum -y install mysql57-community-re...

2018-09-27 15:59:00 1226

原创 13、MapReduce框架原理(下)

OutputFormat数据输出outputformat实现类.png OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。OutputFormat接口实现类文本输出TextOutputFormat 默认的输出格式是TextOutputForma...

2018-09-26 17:13:00 1301

原创 12、MapReduce框架原理(上)

MapReduce工作流程流程图如下 mapreduce工作流程.png 解释上面的流程是整个mapreduce最全工作流程，但是shuffle过程只是从第7步开始到第16步结束，具体shuffle过程详解，如下：maptask收集我们的map()方法输出的kv对，放到内存缓冲区中从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件多个溢出文件会被合并成大的溢...

2018-09-12 17:05:00 1284

原创 11、Hadoop序列化

序列化概述什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对...

2018-09-12 15:13:00 1259

原创 10、MapReduce入门

MapReduce定义Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。MapReduce优缺点优点MapReduce 易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序...

2018-09-12 11:58:00 1255

原创 9、DateNode

DateNode工作机制datenode工作机制.png一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命...

2018-09-11 18:11:00 1740

原创 8、NameNode和SecondaryNameNode工作原理

Fsimage和Edits解析相关概念namenode被格式化之后，将在/opt/module/hadoop-2.8.3/data/tmp/dfs/name/current目录中产生如下文件 namenode格式化后文件.pngFsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件idnode的序列化信息。 Edits文件...

2018-09-10 18:29:00 1503

原创 7、HDFS读写流程

HDFS写数据流程hdfs写流程.png 1）. 客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。3）. NameNode返回是否可以上传。5）. 客户端请求第一个 block上传到哪几个datanode服务器上。7）. NameNode返回3个datanode节点，分别为dn1...

2018-09-07 17:07:00 1438

原创 6、HDFS客户端操作

环境准备配置HADOOP_HOME环境变量 hadoop-home.png 配置Path环境变量 path.png 创建一个Maven工程，HDFSClientDemo 导入对应依赖 <dependencies> <dependency> <groupId&g...

2018-09-06 18:05:00 1252

原创 5、命令行操作HDFS

基本命令hadoop fs 具体命令参数大全hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GR...

2018-09-05 21:33:00 1267

原创 4、HDFS概述

产生背景随着数据量越来越大，在一个操作系统管辖的范围内存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS概念HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。...

2018-09-05 21:31:00 1285

原创 3、hadoop源码编译

hello

2018-09-05 15:03:00 1239

ZJ__ZFH的博客