Hadoop_TANCHISE的博客-CSDN博客

Hadoop

关注

文章平均质量分 94

Hadoop是一个由Apache 基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。

关注数：文章数：21 文章阅读量：8557 文章收藏量：30

作者: TANCHISE

这个作者很懒，什么都没留下…

展开

Hadoop HA 高可用（重点详解）

文章目录四、Hadoop HA 高可用4.1 HA 概述4.2 HDFS-HA 工作机制4.2.1 HDFS-HA 工作要点4.2.2 HDFS-HA 自动故障转移工作机制4.3 HDFS-HA 集群配置4.3.1 环境准备4.3.2 规划集群4.3.3 配置 Zookeeper 集群4.3.4 配置 HDFS-HA 集群4.3.5 启动HDFS-HA集群4.3.6 配置 HDFS-HA 自动故障转移4.4 YARN-HA配置4.4.1 YARN-HA工作机制4.4.2 配置 YARN-HA 集群4.5 H

原创 2020-07-29 07:19:46 · 940 阅读 · 0 评论
Hadoop 新特性

文章目录三、Hadoop新特性3.1 Hadoop2.x新特性3.1.1 集群间数据拷贝3.1.2 小文件存档3.1.3 回收站3.2 Hadoop3.x 新特性3.2.1 多NN的HA架构3.2.2 纠删码三、Hadoop新特性3.1 Hadoop2.x新特性3.1.1 集群间数据拷贝1）scp 实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop106:/user/xiaoxq/hello.txt // 推 push scp -r root@hado

原创 2020-07-29 07:18:32 · 189 阅读 · 0 评论
Hadoop 常用优化方式

文章目录二、Hadoop 企业优化2.1 MapReduce 跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 I/O传输2.2.5 数据倾斜问题2.3 常用的调优参数2.4 Hadoop小文件优化方法2.4.1 Hadoop小文件弊端2.4.2 Hadoop小文件解决方案二、Hadoop 企业优化2.1 MapReduce 跑的慢的原因2.2 MapReduce优化方法 MapReduce优化方法主要从六个方面考虑：

原创 2020-07-29 07:18:08 · 500 阅读 · 0 评论
Hadoop 优化及新特性

文章目录Hadoop 优化及新特性一、Hadoop 数据压缩1.1 概述1.2 MR支持的压缩编码1.3 压缩方式选择1.3.1Gzip压缩1.3.2 Bzip2压缩1.3.3 Lzo压缩1.3.4 Snappy压缩1.4 压缩位置选择1.5 压缩参数配置1.6 压缩实操案例1.6.1 数据流的压缩和解压缩1.6.2 Map输出端采用压缩Hadoop 优化及新特性一、Hadoop 数据压缩1.1 概述1.2 MR支持的压缩编码压缩格式hadoop自带？算法文件扩展名是否可切分

原创 2020-07-29 07:17:45 · 203 阅读 · 0 评论
Hadoop之 MapReduce （Yarn资源调度器）

文章目录四、Yarn资源调度器4.1 Yarn基本架构4.2 Yarn工作机制4.3 作业提交全过程4.4 资源调度器4.5 容量调度器多队列提交案例4.5.1 需求4.5.2 配置多队列的容量调度器4.5.3 向Hive队列提交任务四、Yarn资源调度器4.1 Yarn基本架构Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。4.2 Yarn工作机制（1）MR程序提交到客户

原创 2020-07-28 23:36:19 · 575 阅读 · 0 评论
Hadoop之 MapReduce （计数器应用 / 数据清洗（ETL）/MapReduce开发总结）

文章目录8、计数器应用9、数据清洗（ETL）10、MapReduce开发总结8、计数器应用9、数据清洗（ETL）在运行核心业务 MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序，不需要运行Reduce程序。1）需求去除日志中字段个数小于等于11的日志。（1）输入数据 web.log（2）期望输出数据每行字段长度都大于11。2）需求分析需要在Map阶段对输入的数据根据规则进行过滤清洗。3）实现

原创 2020-07-28 23:35:28 · 259 阅读 · 0 评论
Hadoop之 MapReduce （Join 多种应用）

文章目录7、 Join 多种应用7.1 Reduce Join7.2 Reduce Join 案例实操7.3 Map Join7.4 Map Join案例实操7、 Join 多种应用7.1 Reduce Join7.2 Reduce Join 案例实操1）需求订单数据表 order.txtidpidamount100101110020221003033100401410050251006036商品信息表 prod

原创 2020-07-28 23:34:53 · 172 阅读 · 0 评论
Hadoop之 MapReduce （OutputFormat 数据输出）

文章目录6、OutputFormat 数据输出6.1 OutputFormat 接口实现类6.2 自定义 OutputFormat6.3 自定义 OutputFormat 案例实操6、OutputFormat 数据输出6.1 OutputFormat 接口实现类6.2 自定义 OutputFormat6.3 自定义 OutputFormat 案例实操1）需求过滤输入的log日志，包含 baidu 的网站输出到e:/baidu.log，不包含 baidu 的网站输出到 e:/other.l

原创 2020-07-28 23:34:17 · 309 阅读 · 0 评论
Hadoop之 MapReduce （MapTask 和 ReduceTask 工作机制详解）

文章目录4 、MapTask 工作机制5 、ReduceTask工作机制4 、MapTask 工作机制（1）Read阶段：MapTask 通过 InputFormat 获得的 RecordReader，从输入 InputSplit 中解析出一个个 key/value。（2）Map 阶段：该节点主要是将解析出的 key/value 交给用户编写 map() 函数处理，并产生一系列新的 key/value。（3）Collect 收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用Outp

原创 2020-07-28 23:33:47 · 295 阅读 · 0 评论
Hadoop之 MapReduce （Shuffle机制详解）

文章目录3、Shuffle机制详解3.1 Shuffle 机制3.2 Partition3.3 Partition分区案例练习3.4 WritableComparable 排序3.5 WritableComparable 排序案例实操（全排序）3.6 WritableComparable 排序案例实操（区内排序）3.7 Combiner 合并3.8 Combiner 合并案例实操3、Shuffle机制详解3.1 Shuffle 机制 Map 方法之后，Reduce 方法之前的数据处理过程称之为Shu

原创 2020-07-28 23:32:25 · 247 阅读 · 0 评论
Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

文章目录一、MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.2.1 优点1.2.1 缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方 WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例练习一、MapReduce 概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框

原创 2020-07-28 23:30:52 · 206 阅读 · 0 评论
Hadoop 之 MapReduce -- Hadoop 序列化及案例解析

文章目录二、Hadoop 序列化1、序列化概述2、自定义 bean 对象实现序列化接口（Writable）3 、序列化案例实操二、Hadoop 序列化1、序列化概述2、自定义 bean 对象实现序列化接口（Writable）在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。（1）必须实现 Writable 接口（2）反序列化时，需要反射调用空参构造函数，所以必

原创 2020-07-25 19:35:32 · 208 阅读 · 0 评论
Hadoop 之 MapReduce 概述--WordCount 案例实现

文章目录一、MapReduce概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.2.1 优点1.2.1 缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方 WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例练习一、MapReduce概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架，是用户开发基于Hadoop的数据分析应用的核心框架。

原创 2020-07-25 19:35:00 · 524 阅读 · 0 评论
Hadoop 运行模式（本地模式 / 分布式运行模式）

Hadoop 运行模式1、本地运行模式（WordCount）1.1 在 hadoop-3.1.3 文件下面创建一个 fileinput 文件夹[xiaoxq@hadoop105 hadoop-3.1.3]$ mkdir fileinput1.2 在 filenput 文件下创建一个word.txt文件[xiaoxq@hadoop105 hadoop-3.1.3]$ cd fileinput/1.3 编辑 word.txt 文件[xiaoxq@hadoop105 fileinput]$ vi

原创 2020-07-24 22:06:29 · 501 阅读 · 0 评论
Hadoop 运行环境搭建（详细）

Hadoop运行环境搭建（重点）1、模板虚拟机环境准备1.1 准备一台模板虚拟机（hadoop100）注：本文Linux系统环境全部以 CentOS-7.5-x86-1804 为例说明模板虚拟机配置：内存4G，硬盘50G，安装必要环境，为安装hadoop做准备[root@hadoop100 ~]# yum install -y epel-release[root@hadoop100 ~]# yum install -y psmisc nc net-tools rsync vim lrzsz

原创 2020-07-24 22:06:05 · 1315 阅读 · 0 评论
Hadoop 基础 -- 大数据概论、Hadoop概述

一、大数据概论1、大数据概念大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位： bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1 Byte = 8 bit 1 K = 1024 Byte 1 MB = 1024 K

原创 2020-07-24 22:04:55 · 325 阅读 · 0 评论
Hadoop 之 HDFS (NameNode 和 SecondaryNameNode)

文章目录五、NameNode 和 SecondaryNameNode（开发重点）5.1 NN 和 2NN工作机制5.2 Fsimage和Edits解析5.2.1 oiv查看Fsimage文件5.2.2 oev 查看 Edits 文件5.3 CheckPoint时间设置5.4 NameNode 故障处理（扩展）5.5 集群安全模式5.6 NameNode 多目录配置五、NameNode 和 SecondaryNameNode（开发重点）5.1 NN 和 2NN工作机制NameNode 中的元数据需要存

原创 2020-07-25 19:22:54 · 256 阅读 · 0 评论
Hadoop 之 HDFS (HDFS 数据流的读写流程)

文章目录四、HDFS 的数据流（面试重点）4.1 HDFS 的数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知（副本存储节点选择）4.2 HDFS读数据流程四、HDFS 的数据流（面试重点）4.1 HDFS 的数据流程4.1.1 剖析文件写入（1）客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。（2）NameNode 返回是否可以上传。（3）客户端

原创 2020-07-25 19:22:10 · 208 阅读 · 0 评论
Hadoop 之 HDFS (HDFS客户端操作)

文章目录三、HDFS客户端操作（开发重点）3.1 HDFS 客户端操作3.2 HDFS 的 API 操作三、HDFS客户端操作（开发重点）3.1 HDFS 客户端操作（1）找到资料目录下的Windows依赖目录，打开：拷贝到其他地方（2）配置 HADOOP_HOME 环境变量（3）配置 Path 环境变量，然后重启电脑（4）创建一个 Maven 工程 hadoopHDFS,并导入相应的依赖坐标+日志添加<dependencies> <dependency>

原创 2020-07-25 19:21:15 · 485 阅读 · 0 评论
Hadoop 之 HDFS(HDFS 概述及 Shell 操作)

文章目录HDFS 概述及 Shell 操作一、HDFS 概述1.1 定义1.2 HDFS 优缺点1.3 HDFS 架构组成1.4 HDFS 文件块的大小二、HDFS 的 Shell 操作2.1 基本语法2.2 命令列表2.3 常用命令练习2.3.1 准备工作2.3.2 上传操作2.3.3 下载操作2.3.4 HDFS 直接操作HDFS 概述及 Shell 操作一、HDFS 概述1.1 定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通

原创 2020-07-25 19:20:34 · 187 阅读 · 0 评论
Hadoop 之 HDFS (DateNode)

文章目录六、DateNode（重点）6.1 DataNode工作机制6.2 数据完整性6.3 掉线时限参数设置6.4 服役新数据节点6.5 退役旧数据节点6.5.1 添加白名单和黑名单6.5.2 黑名单退役6.6 DataNode 多目录配置六、DateNode（重点）6.1 DataNode工作机制（1）一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。（2）DataNode 启动后向 NameNod

原创 2020-07-25 19:23:46 · 655 阅读 · 0 评论

Hadoop

作者: TANCHISE

Hadoop HA 高可用（重点详解）

Hadoop 新特性

Hadoop 常用优化方式

Hadoop 优化及新特性

Hadoop之 MapReduce （Yarn资源调度器）

Hadoop之 MapReduce （计数器应用 / 数据清洗（ETL）/MapReduce开发总结）

Hadoop之 MapReduce （Join 多种应用）

Hadoop之 MapReduce （OutputFormat 数据输出）

Hadoop之 MapReduce （MapTask 和 ReduceTask 工作机制详解）

Hadoop之 MapReduce （Shuffle机制详解）

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程 ）

Hadoop 之 MapReduce -- Hadoop 序列化及案例解析

Hadoop 之 MapReduce 概述--WordCount 案例实现

Hadoop 运行模式 （本地模式 / 分布式运行模式）

Hadoop 运行环境搭建（详细）

Hadoop 基础 -- 大数据概论、Hadoop概述

Hadoop 之 HDFS (NameNode 和 SecondaryNameNode)

Hadoop 之 HDFS (HDFS 数据流的 读写 流程)

Hadoop 之 HDFS (HDFS客户端操作)

Hadoop 之 HDFS(HDFS 概述 及 Shell 操作)

Hadoop 之 HDFS (DateNode)

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

Hadoop 运行模式（本地模式 / 分布式运行模式）

Hadoop 之 HDFS (HDFS 数据流的读写流程)

Hadoop 之 HDFS(HDFS 概述及 Shell 操作)