![](https://img-blog.csdnimg.cn/20200811114934357.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 94
Hadoop是一个由Apache 基金会所开发的分布式系统基础架构。主要解决,海量数据的 存储 和海量数据的 分析计算 问题。
TANCHISE
这个作者很懒,什么都没留下…
展开
-
Hadoop HA 高可用(重点详解)
文章目录四、Hadoop HA 高可用4.1 HA 概述4.2 HDFS-HA 工作机制4.2.1 HDFS-HA 工作要点4.2.2 HDFS-HA 自动故障转移工作机制4.3 HDFS-HA 集群配置4.3.1 环境准备4.3.2 规划集群4.3.3 配置 Zookeeper 集群4.3.4 配置 HDFS-HA 集群4.3.5 启动HDFS-HA集群4.3.6 配置 HDFS-HA 自动故障转移4.4 YARN-HA配置4.4.1 YARN-HA工作机制4.4.2 配置 YARN-HA 集群4.5 H原创 2020-07-29 07:19:46 · 940 阅读 · 0 评论 -
Hadoop 新特性
文章目录三、Hadoop新特性3.1 Hadoop2.x新特性3.1.1 集群间数据拷贝3.1.2 小文件存档3.1.3 回收站3.2 Hadoop3.x 新特性3.2.1 多NN的HA架构3.2.2 纠删码三、Hadoop新特性3.1 Hadoop2.x新特性3.1.1 集群间数据拷贝1)scp 实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop106:/user/xiaoxq/hello.txt // 推 push scp -r root@hado原创 2020-07-29 07:18:32 · 189 阅读 · 0 评论 -
Hadoop 常用优化方式
文章目录二、Hadoop 企业优化2.1 MapReduce 跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 I/O传输2.2.5 数据倾斜问题2.3 常用的调优参数2.4 Hadoop小文件优化方法2.4.1 Hadoop小文件弊端2.4.2 Hadoop小文件解决方案二、Hadoop 企业优化2.1 MapReduce 跑的慢的原因2.2 MapReduce优化方法 MapReduce优化方法主要从六个方面考虑:原创 2020-07-29 07:18:08 · 500 阅读 · 0 评论 -
Hadoop 优化及新特性
文章目录Hadoop 优化及新特性一、Hadoop 数据压缩1.1 概述1.2 MR支持的压缩编码1.3 压缩方式选择1.3.1Gzip压缩1.3.2 Bzip2压缩1.3.3 Lzo压缩1.3.4 Snappy压缩1.4 压缩位置选择1.5 压缩参数配置1.6 压缩实操案例1.6.1 数据流的压缩和解压缩1.6.2 Map输出端采用压缩Hadoop 优化及新特性一、Hadoop 数据压缩1.1 概述1.2 MR支持的压缩编码压缩格式hadoop自带?算法文件扩展名是否可切分原创 2020-07-29 07:17:45 · 203 阅读 · 0 评论 -
Hadoop之 MapReduce (Yarn资源调度器)
文章目录四、Yarn资源调度器4.1 Yarn基本架构4.2 Yarn工作机制4.3 作业提交全过程4.4 资源调度器4.5 容量调度器多队列提交案例4.5.1 需求4.5.2 配置多队列的容量调度器4.5.3 向Hive队列提交任务四、Yarn资源调度器4.1 Yarn基本架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。4.2 Yarn工作机制(1)MR程序提交到客户原创 2020-07-28 23:36:19 · 575 阅读 · 0 评论 -
Hadoop之 MapReduce (计数器应用 / 数据清洗(ETL)/MapReduce开发总结)
文章目录8、计数器应用9、数据清洗(ETL)10、MapReduce开发总结8、计数器应用9、数据清洗(ETL) 在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行Reduce程序。1)需求去除日志中字段个数小于等于11的日志。(1)输入数据 web.log(2)期望输出数据 每行字段长度都大于11。2)需求分析 需要在Map阶段对输入的数据根据规则进行过滤清洗。3)实现原创 2020-07-28 23:35:28 · 259 阅读 · 0 评论 -
Hadoop之 MapReduce (Join 多种应用)
文章目录7、 Join 多种应用7.1 Reduce Join7.2 Reduce Join 案例实操7.3 Map Join7.4 Map Join案例实操7、 Join 多种应用7.1 Reduce Join7.2 Reduce Join 案例实操1)需求订单数据表 order.txtidpidamount100101110020221003033100401410050251006036商品信息表 prod原创 2020-07-28 23:34:53 · 172 阅读 · 0 评论 -
Hadoop之 MapReduce (OutputFormat 数据输出)
文章目录6、OutputFormat 数据输出6.1 OutputFormat 接口实现类6.2 自定义 OutputFormat6.3 自定义 OutputFormat 案例实操6、OutputFormat 数据输出6.1 OutputFormat 接口实现类6.2 自定义 OutputFormat6.3 自定义 OutputFormat 案例实操1)需求 过滤输入的log日志,包含 baidu 的网站输出到e:/baidu.log,不包含 baidu 的网站输出到 e:/other.l原创 2020-07-28 23:34:17 · 309 阅读 · 0 评论 -
Hadoop之 MapReduce (MapTask 和 ReduceTask 工作机制详解)
文章目录4 、MapTask 工作机制5 、ReduceTask工作机制4 、MapTask 工作机制(1)Read阶段:MapTask 通过 InputFormat 获得的 RecordReader,从输入 InputSplit 中解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给用户编写 map() 函数处理,并产生一系列新的 key/value。(3)Collect 收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用Outp原创 2020-07-28 23:33:47 · 295 阅读 · 0 评论 -
Hadoop之 MapReduce (Shuffle机制详解)
文章目录3、Shuffle机制详解3.1 Shuffle 机制3.2 Partition3.3 Partition分区案例练习3.4 WritableComparable 排序3.5 WritableComparable 排序案例实操(全排序)3.6 WritableComparable 排序案例实操(区内排序)3.7 Combiner 合并3.8 Combiner 合并案例实操3、Shuffle机制详解3.1 Shuffle 机制 Map 方法之后,Reduce 方法之前的数据处理过程称之为Shu原创 2020-07-28 23:32:25 · 247 阅读 · 0 评论 -
Hadoop 之 MapReduce (InputFormat 和 MapReduce工作流程 )
文章目录一、MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.2.1 优点1.2.1 缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方 WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例练习一、MapReduce 概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框原创 2020-07-28 23:30:52 · 206 阅读 · 0 评论 -
Hadoop 之 MapReduce -- Hadoop 序列化及案例解析
文章目录二、Hadoop 序列化1、序列化概述2、自定义 bean 对象实现序列化接口(Writable)3 、序列化案例实操二、Hadoop 序列化1、序列化概述2、自定义 bean 对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现 Writable 接口(2)反序列化时,需要反射调用空参构造函数,所以必原创 2020-07-25 19:35:32 · 208 阅读 · 0 评论 -
Hadoop 之 MapReduce 概述--WordCount 案例实现
文章目录一、MapReduce概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.2.1 优点1.2.1 缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方 WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例练习一、MapReduce概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发基于Hadoop的数据分析应用的核心框架。原创 2020-07-25 19:35:00 · 524 阅读 · 0 评论 -
Hadoop 运行模式 (本地模式 / 分布式运行模式)
Hadoop 运行模式1、本地运行模式(WordCount)1.1 在 hadoop-3.1.3 文件下面创建一个 fileinput 文件夹[xiaoxq@hadoop105 hadoop-3.1.3]$ mkdir fileinput1.2 在 filenput 文件下创建一个word.txt文件[xiaoxq@hadoop105 hadoop-3.1.3]$ cd fileinput/1.3 编辑 word.txt 文件[xiaoxq@hadoop105 fileinput]$ vi原创 2020-07-24 22:06:29 · 501 阅读 · 0 评论 -
Hadoop 运行环境搭建(详细)
Hadoop运行环境搭建(重点)1、模板虚拟机环境准备1.1 准备一台模板虚拟机(hadoop100) 注:本文Linux系统环境全部以 CentOS-7.5-x86-1804 为例说明模板虚拟机配置:内存4G,硬盘50G,安装必要环境,为安装hadoop做准备[root@hadoop100 ~]# yum install -y epel-release[root@hadoop100 ~]# yum install -y psmisc nc net-tools rsync vim lrzsz原创 2020-07-24 22:06:05 · 1315 阅读 · 0 评论 -
Hadoop 基础 -- 大数据概论、Hadoop概述
一、大数据概论1、大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的 存储 和海量数据的 分析计算 问题。按顺序给出数据存储单位: bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1 Byte = 8 bit 1 K = 1024 Byte 1 MB = 1024 K原创 2020-07-24 22:04:55 · 325 阅读 · 0 评论 -
Hadoop 之 HDFS (NameNode 和 SecondaryNameNode)
文章目录五、NameNode 和 SecondaryNameNode(开发重点)5.1 NN 和 2NN工作机制5.2 Fsimage和Edits解析5.2.1 oiv查看Fsimage文件5.2.2 oev 查看 Edits 文件5.3 CheckPoint时间设置5.4 NameNode 故障处理(扩展)5.5 集群安全模式5.6 NameNode 多目录配置五、NameNode 和 SecondaryNameNode(开发重点)5.1 NN 和 2NN工作机制NameNode 中的元数据需要存原创 2020-07-25 19:22:54 · 256 阅读 · 0 评论 -
Hadoop 之 HDFS (HDFS 数据流的 读写 流程)
文章目录四、HDFS 的数据流(面试重点)4.1 HDFS 的数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知(副本存储节点选择)4.2 HDFS读数据流程四、HDFS 的数据流(面试重点)4.1 HDFS 的数据流程4.1.1 剖析文件写入(1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端原创 2020-07-25 19:22:10 · 208 阅读 · 0 评论 -
Hadoop 之 HDFS (HDFS客户端操作)
文章目录三、HDFS客户端操作(开发重点)3.1 HDFS 客户端操作3.2 HDFS 的 API 操作三、HDFS客户端操作(开发重点)3.1 HDFS 客户端操作(1)找到资料目录下的Windows依赖目录,打开:拷贝到其他地方(2)配置 HADOOP_HOME 环境变量(3)配置 Path 环境变量,然后重启电脑(4)创建一个 Maven 工程 hadoopHDFS,并导入相应的依赖坐标+日志添加<dependencies> <dependency>原创 2020-07-25 19:21:15 · 485 阅读 · 0 评论 -
Hadoop 之 HDFS(HDFS 概述 及 Shell 操作)
文章目录HDFS 概述 及 Shell 操作一、HDFS 概述1.1 定义1.2 HDFS 优缺点1.3 HDFS 架构组成1.4 HDFS 文件块的大小二、HDFS 的 Shell 操作2.1 基本语法2.2 命令列表2.3 常用命令练习2.3.1 准备工作2.3.2 上传操作2.3.3 下载操作2.3.4 HDFS 直接操作HDFS 概述 及 Shell 操作一、HDFS 概述1.1 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通原创 2020-07-25 19:20:34 · 187 阅读 · 0 评论 -
Hadoop 之 HDFS (DateNode)
文章目录六、DateNode(重点)6.1 DataNode工作机制6.2 数据完整性6.3 掉线时限参数设置6.4 服役新数据节点6.5 退役旧数据节点6.5.1 添加白名单和黑名单6.5.2 黑名单退役6.6 DataNode 多目录配置六、DateNode(重点)6.1 DataNode工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNod原创 2020-07-25 19:23:46 · 655 阅读 · 0 评论