Hadoop
文章平均质量分 86
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理
Lansonli
CSDN大数据领域博客专家,InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋(TDP)核心成员、51CTO专家博主,全网二十万多粉丝,知名互联网公司大数据高级开发工程师
展开
-
大数据Hadoop(三十):Hadoop3.x的介绍
的介绍介绍 由于Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,即hadoop 3.0。Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。hadoop3.x以后将会调整方案架构,将Mapre...原创 2021-06-08 22:39:20 · 2926 阅读 · 34 评论 -
大数据Hadoop(二十九):关于YARN常用参数设置
关于yarn常用参数设置 设置container分配最小内存yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存设置container分配最大内存yarn.scheduler.maximum-allocation-mb 8192给应用程序container分配的最大内存设置每个container的最小虚拟内核个数yarn.scheduler.minimum-allocation-vc...原创 2021-06-08 07:58:26 · 1416 阅读 · 15 评论 -
大数据Hadoop(二十八):YARN的调度器Scheduler
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言Yarn的调度器SchedulerFIFO SchedulerCapacity SchedulerFair Scheduler示例:Capacity调度器配置使用本系列历史文章2021年大数据Hadoop(二十七):YARN运行流程2021年大数据Hadoop(二十六):.原创 2021-06-07 21:38:28 · 1384 阅读 · 24 评论 -
大数据Hadoop(二十七):YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言Yarn运行流程本系列历史文章2021年大数据Hadoop(二十六):YARN三大组件介绍2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构2021年大数据Hadoop(二十四):MapReduce高阶训练2021年大数据Hadoop(二十三):MapReduce的运行机制详解2021年大数据Hadoop(二十二).原创 2021-06-07 20:59:53 · 1315 阅读 · 3 评论 -
大数据Hadoop(二十六):YARN三大组件介绍
Yarn三大组件介绍 ResourceManager ResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。 NodeManager以心跳的方式向ResourceManager汇报资源使用情况(目前主要是CPU和内存的使用情况)。ResourceManager只接受NodeManager的资源回报信息,对于具体的资源处理则交给NodeManager自己处理。 ResourceManager中的YARN Scheduler组件根据application的..原创 2021-06-07 08:43:22 · 2021 阅读 · 27 评论 -
大数据Hadoop(二十五):YARN通俗介绍和基本架构
Hadoop YARN Yarn通俗介绍 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序,Yarn为这些程序提供运..原创 2021-06-04 00:14:01 · 1830 阅读 · 11 评论 -
大数据Hadoop(二十四):MapReduce高阶训练
MapReduce高阶训练 上网流量统计 数据格式如下: 需求:统计求和 统计每个手机号的上行数据包数总和,下行数据包数总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行数据包,下行数据包,上行总流量,下行总流量四个字段作为value值,然后以这个key和value作为map阶段的输出,reduce阶段的输入。 思路分析 ...原创 2021-06-03 00:04:34 · 2179 阅读 · 84 评论 -
大数据Hadoop(二十三):MapReduce的运行机制详解
MapReduce的运行机制详解 MapTask工作机制 简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个m...原创 2021-06-02 00:43:41 · 2177 阅读 · 39 评论 -
大数据Hadoop(二十二):MapReduce的自定义分组
MapReduce的自定义分组GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑,默认是每个不同的key,作为多个不同的组,每个组调用一次reduce逻辑,我们可以自定义GroupingComparator实现不同的key作为同一个组,调用一次reduce逻辑需求有如下订单数据 订单id 商品id 成交金额 O原创 2021-05-31 20:40:49 · 1675 阅读 · 20 评论 -
大数据Hadoop(二十一):MapReuce的Combineer
MapReuce的Combineer 概念 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件 combiner 组件的父类就是 Reducer combiner 和 reducer 的区别在于运行的位置Combiner ..原创 2021-05-31 00:30:27 · 2174 阅读 · 37 评论 -
大数据Hadoop(二十):MapReduce的排序和序列化
MapReduce的排序和序列化 概述 序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Java的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系…),不便于在..原创 2021-05-30 11:51:44 · 1733 阅读 · 34 评论 -
大数据Hadoop(十九):MapReduce分区
MapReduce分区 分区概述 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个Reduce当中进行处理。例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等其实就是相同类型的数据, 有共性的数据, 送到一起去处理, 在Reduce过程中,可以根据实际需求(比如按某个维度进行归档,类似于数据库的分组),把Map完的数据Red...原创 2021-05-30 11:06:40 · 2107 阅读 · 14 评论 -
大数据Hadoop(十八):MapReduce程序运行模式和深入解析
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言MapReduce程序运行模式和深入解析程序运行模式1、本地运行模式2、集群运行模式深入MapReduce1、MapReduce的输入和输出2、MapReduce的处理流程解析3、Mapper任务执行过程详解4、Reducer任务执行过程详解本系列历史文章2021年大数据Hadoop(十.原创 2021-05-30 01:52:48 · 2075 阅读 · 22 评论 -
大数据Hadoop(十七):MapReduce编程规范及示例编写
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言MapReduce编程规范及示例编写编程规范Map阶段2个步骤Shuffle 阶段 4 个步骤Reduce 阶段 2 个步骤编程步骤MapperReducerDriverWordCount示例编写第一步:数据准备第二步:代码编写本系列历史文章2021年大数据Hadoop(十六):MapReduce计算模.原创 2021-05-29 00:50:20 · 2083 阅读 · 25 评论 -
大数据Hadoop(十六):MapReduce计算模型介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言MapReduce计算模型介绍理解MapReduce思想Hadoop MapReduce设计构思如何对付大数据处理:分而治之构建抽象模型:Map和Reduce统一构架,隐藏系统层细节本系列历史文章2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation20.原创 2021-05-28 08:06:34 · 2964 阅读 · 58 评论 -
大数据Hadoop(十五):Hadoop的联邦机制 Federation
全网最详细的Hadoop文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录本系列历史文章前言Hadoop的联邦机制 Federation背景概述Federation架构设计HDFS Federation加高可用本系列历史文章2021年大数据Hadoop(十四):HDFS的高可用机制2021年大数据Hadoop(十三):HDFS意想不到的其他功能2021年大数据Hadoop(十二):HDFS的API操作.原创 2021-05-28 01:02:43 · 2375 阅读 · 10 评论 -
大数据Hadoop(十四):HDFS的高可用机制
HDFS的高可用机制 HDFS高可用介绍 在Hadoop 中,NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。 在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有..原创 2021-05-27 23:51:24 · 1626 阅读 · 17 评论 -
大数据Hadoop(十三):HDFS其他功能
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理原创 2021-05-27 00:05:44 · 2213 阅读 · 55 评论 -
大数据Hadoop(十二):HDFS的API操作
目录HDFS的API操作HDFS的JAVA API操作配置Windows下Hadoop环境导入Maven依赖使用文件系统方式访问数据1、涉及的主要类2、获取FileSystem方式3、遍历HDFS中所有文件4、HDFS上创建文件夹5、下载文件-方式16、下载文件-方式27、上传文件8、小文件合并9、hdfs访问权限控制HDFS的API操作HDFS的JA...原创 2021-05-26 00:28:06 · 3178 阅读 · 70 评论 -
大数据Hadoop(十一):HDFS的元数据辅助管理
当 Hadoop 的集群当中, NameNode的所有元数据信息都保存在了 FsImage 与 Eidts 文件当中, 这两个文件就记录了所有的数据的元数据信息, 元数据信息的保存目录配置在了 hdfs-site.xml 当中edits 是在NameNode启动时对整个文件系统的快照存放了客户端最近一段时间的操作日志客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中edits 修改时元数据也会更新fsimage是在NameNode启动时对整个文件系统的快照。原创 2021-05-25 21:56:50 · 1998 阅读 · 12 评论 -
大数据Hadoop(十):HDFS的数据读写流程
4、client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将整个pipeline建立完成,后逐级返回client;6、读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。3、NameNode根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用的DataNode的地址,如:A,B,C;原创 2021-05-24 23:59:44 · 2169 阅读 · 49 评论 -
大数据Hadoop(九):HDFS的高级使用命令
目录HDFS的高级使用命令HDFS的安全模式HDFS基准测试测试写入速度测试hdfs的读取文件性能测试读取速度清除测试数据HDFS的高级使用命令HDFS的安全模式安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是3,那么在datanode上就应该有3个副本存在,假设只存在2个副本,那么比例就是2/3=..原创 2021-05-24 23:46:30 · 2387 阅读 · 20 评论 -
大数据Hadoop(八):HDFS的Shell命令行使用
目录HDFS的Shell命令行使用一、Shell命令行客户端二、Shell命令选项三、常用的Shell命令-ls-lsr-mkdir-put-moveFromLocal-moveToLocal-get-getmerge -mv-rm-cat-du-chmod-chown-appendToFileHDFS的Shell命令行使用一、Shell命令行客户端HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就...原创 2021-05-24 23:22:44 · 2110 阅读 · 7 评论 -
大数据Hadoop(七):HDFS分布式文件系统简介
目录HDFS分布式文件系统简介一、HDFS概述二、HDFS发展历史三、HDFS设计目标四、HDFS应用场景适合的应用场景不适合的应用场景五、HDFS的架构六、HDFS的副本机制HDFS文件副本机制HDFS副本放置策略(机架感知)HDFS分布式文件系统简介一、HDFS概述在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS(Hadoop Distributed Fil..原创 2021-05-24 22:46:17 · 1919 阅读 · 9 评论 -
大数据Hadoop(六):全网最详细的Hadoop集群搭建
目录Hadoop集群搭建集群简介集群部署方式1、Standalone mode(独立模式)2、Pseudo-Distributed mode(伪分布式模式)3、Cluster mode(群集模式)-单节点模式-高可用HA模式集群环境准备hadoop重新编译为什么要编译hadoopHadoop编译实现Hadoop安装Hadoop安装包目录结构Hadoop配置文件修改数据目录创建和文件分发配置Hadoop的环境变量...原创 2021-05-24 00:10:31 · 5177 阅读 · 77 评论 -
大数据Hadoop(五):Hadoop架构
目录Hadoop架构1.x的版本架构模型介绍2.x的版本架构模型介绍第一种:NameNode与ResourceManager单节点架构模型第二种:NameNode高可用与ResourceManager单节点架构模型第三种:NameNode单节点与ResourceManager高可用架构模型第四种:NameNode与ResourceManager高可用架构模型3.x的版本架构模型介绍Hadoop架构.原创 2021-05-23 23:03:52 · 2264 阅读 · 11 评论 -
大数据Hadoop(四):Hadoop发行版公司
目录Hadoop发行版公司免费开源版本Apache:免费开源版本HortonWorks:软件收费版本Cloudera:CDHHadoop发行版公司Hadoop发行版本分为开源社区版和商业版。社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有cloudera的CDH、mapR、hortonWorks等。...原创 2021-05-23 22:32:12 · 1953 阅读 · 6 评论 -
大数据Hadoop(三):Hadoop国内外应用
目录Hadoop国内外应用Hadoop在国外应用的部分企业一、Yahoo二、Facebook三、IBMHadoop在国内应用的部分企业一、百度二、阿里巴巴三、华为四、腾讯Hadoop国内外应用Hadoop在国外应用的部分企业一、YahooYahoo是Hadoop的最大支持者,Yahoo的Hadoop机器总节点数目已经超过42000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有45.原创 2021-05-23 22:28:00 · 3059 阅读 · 6 评论 -
大数据Hadoop(二):Hadoop发展简史和特性优点
目录Hadoop发展简史Hadoop特性优点Hadoop发展简史Hadoop是Apache Lucene创始人 Doug Cutting创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架.原创 2021-05-23 22:20:25 · 1975 阅读 · 8 评论 -
大数据Hadoop(一):Hadoop介绍
Hadoop介绍Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储MAPREDUCE(分布式运算编程框架):解决海量数据计算YARN(作业调度和集群资源管理的框架):解决资源任务调度广义上来说,Hadoop通常是指一个更广泛的概念——Hadoo.原创 2021-05-23 20:18:42 · 4728 阅读 · 7 评论